Uygulama 6 DNA Dizilerinde Bazı Đstatistiksel Analizler DNA molekülleri nükleotidlerin uzun birer dizileridir. Dizilenmiş bir DNA molekülüne A,C,G,T harflerinin oluşturduğu bir kelimelik uzun bir yazı olarak bakabiliriz. 23 kromozomda bulunan insan genomu 3.2 Gb olup 25000 gene sahip olduğu tahmin edilmektedir. Birinci kromozomda baz sayısı 247,200,000 ve gen sayısı 3,148 dır. Đnsan genomunun, yani DNA nın yaklaşık %1.5 lik kısmı (yaklaşık 25,000 gen) protein kodlamaktadır. Protein kodlamayan DNA dizisindeki bölgeler intronlardaki DNA, bazı tekrarlanan DNA (repetitif DNA) ve Alu elemetleridir. Đnsan genomunun kodlayıcı olmayan büyük kısmı intronlardadır. Đntronlar, kiliğinden veya enzimler tarafından katalize olarak transkripsiyon esnasında düşüp ayrılmaktadırlar (splicing). Đntron-ekzon bağlanma yerlerini belirlemek biyoinformatikte önemli problemlerden biridir. Bir gen komşuluğundaki genomun yapısı genel olarak aşağıdaki gibidir. Transkripsiyon yönü Ekzonlar (kodlama bölgeleri) Transkripsiyon Sonlandırıcı kodon başlangıcı (UAG,UGA veya UAA) 5 3 Promoter (tetikleyici bölge, ilgili özel enzimle aktifleştirilmektedir) 5 translasyon gerçekleşmeyen bölge Đntronlar (ara bölgeler) AAAAAA... Polyadenilation signal 3 translasyon gerçekleşmeyen bölge DNA dizisinde genlerin başlangıç ve sonunu, intron-ekzon geçişlerini ve belli işlevi olan bölgeleri belirten bir takım işaretler (sinyaller) bulunmaktadır. Hücre mekanizması bu işaretlere göre işlevini yapmaktadır. Bir işaret (sinyal) kısa bir DNA parçasıdır (dizi parçasıdır). Belli amaçlı, böyle bir işaret tek biçimli ve DNA dizinde görevi olmayan yerlerde bulunmamalıdır diye içimizden geçirebiliriz. Ancak durum böyle değildir. Bir işaretin (sinyalin) işlevini yaptıran çok sayıda farklı DNA parçaları bulunmaktadır. Bunlara işaretin (sinyalin) üyeleri denmektedir. Ayrıca bu üyeler DNA dizisinin işlevsiz bölgelerinde de rasgele olarak ortaya çıkmaktadır. Dolayısıyla bu üyeler gözliğinde işlevi olanlarla olmayanları sınıflandırmak zor olmaktadır.
Günümüzde, işaretlerin (sinyallerin) tümü olmasa da bir kısmı bilinmektedir. Bir işaretin bilinen üyelerini kullanarak, yeni bir DNA parçasının bu işaret ile ilgili bir üye olma olasılığını hesaplamak bir araştırma konusudur. Üyelik olasılıklarının hesaplanmasında temel bir varsayım, farklı üyelerin aynı atadan kaynaklanıp bazı stokastik süreçler sonucu ortaya çıkmalarıdır. Bu sebeple, gözlemleri (gözlemleri üreten olguyu) anlatan stokastik modeller kurmak akıllıca görünmektedir. Uygulamalardan görüldüğü kadarıyla bazı işaretler (sinyaller) oldukça basit modellere sahiptir, bazıları ise çok karmaşık modellere sahiptir. Anlaşılması (modellenmesi) karmaşık olan işaretleri ortaya çıkarmak için çok sayıda gözleme ihtiyaç duyulmaktadır. Bir işaretin (sinyalin) bazı üyelerinin veri kümesi (training data) elimizse bulunursa, başka bir DNA parçasının bu veri kümesinin üyesi olması olasılığı hesaplanabilir. Bunu yapmak için elimizdeki veri kümesini (training data) kullanarak sinyalin özelliklerinin modellenmesi gerekir. Đnsan genlerindeki bazı işaretlerin (sinyallerin) gözlenmiş üyelerinin kümelerini bulunduran veri tabanları hazırlanmıştır ve kullanıma açıktır Bu derste, bir işaretin (sinyalin) tüm üyelerinin aynı baz uzunluklu DNA parçaları olduğunu varsayacağız. Örneğin, bir işaret ile ilgili 100 üyelik küme (training set) aşağıdaki gibi olsun. [ C, T, T, A, G] [ T, T, T, G, C] [ C, T, T, A, A] [ A, A, C, C, G] [ T, T, A, C, T] [ G, C, T, T, T] [ A, C, A, G, T] [ G, A, T, G, A] [ C, G, A, A, T] [ G, T, T, A, T] [ A, G, T, G, A] [ C, G, C, C, G] [ C, A, G, G, A] [ T, T, A, C, A] [ C, T, T, T, T] [ C, A, T, C, A] [ A, A, T, T, T] [ A, A, T, T, A] [ G, A, A, A, T] [ G, C, G, A, A] [ C, C, C, T, G] [ T, T, T, C, G] [ C, G, C, A, C] [ G, C, G, G, C] [ C, A, T, A, C] [ T, G, C, A, G] [ G, G, T, C, A] [ T, C, G, T, A] [ G, A, A, G, T] [ T, T, T, C, T] [ T, G, A, G, G] [ C, A, G, G, T] [ T, T, T, A, C] [ T, T, G, A, T] [ G, C, A, A, A] [ G, G, C, G, C] [ C, A, T, A, C] [ C, A, T, T, G] [ T, T, C, G, C] [ A, T, A, T, G] [ T, G, G, C, A] [ G, T, T, G, C] [ G, C, A, G, A] [ G, C, T, T, A] [ T, A, G, G, A] [ T, G, A, G, G] [ T, A, C, A, G] [ A, G, A, A, A] [ A, G, G, G, G] [ C, G, A, G, T] [ C, G, T, C, G] [ T, T, T, T, T]
[ T, G, C, A, C] [ C, G, T, T, G] [ T, G, C, A, A] [ C, T, A, T, A] [ C, C, T, G, G] [ G, C, T, A, G] [ C, G, A, T, A] [ G, G, G, A, G] [ A, C, G, T, A] [ C, T, A, C, G] [ G, A, T, T, A] [ G, C, T, A, A] [ C, T, G, C, T] [ T, G, C, T, G] [ A, A, A, G, T] [ A, A, A, C, T] [ T, T, T, T, C] [ G, C, T, A, C] [ G, G, A, G, A] [ G, C, G, C, T] [ A, T, G, G, G] [ A, C, T, G, A] [ T, C, C, A, G] [ G, T, A, C, G] [ T, G, G, G, T] [ G, C, G, T, G] [ T, G, G, C, T] [ G, T, G, A, A] [ T, C, G, A, C] [ A, T, G, T, T] [ A, G, T, A, C] [ A, G, C, A, A] [ A, G, C, A, G] [ T, A, C, C, G] [ T, G, A, A, T] [ G, T, T, G, C] [ C, C, G, G, G] [ T, C, A, T, C] [ C, G, C, A, A] [ A, A, A, G, G] [ G, T, A, G, G] [ G, T, T, G, C] [ A, C, T, C, T] [ T, A, C, T, G] [ G, A, G, A, G] [ C, G, A, C, C] [ A, G, A, C, A] [ C, C, C, T, A] Her site (sütün) için gözlenen oranlar: Site: 1 2 3 4 5 A 0.2 0.21 0.26 0.3 0.29 C 0.25 0.23 0.18 0.2 0.18 G 0.27 0.3 0.22 0.28 0.3 T 0.28 0.26 0.34 0.22 0.23 olmak üzere, 5 siteli bu işaret için sitelerin bağımsız olduğu bilinsin (B modeli geçerli olsun). Bu durumda üyeler arasında bulunmayan s=aaccg gibi bir DNA parçasının bu işaretin üyeler kümesine aday olması olasılığı, P( AACCG / B) = P( A) P( A) P( C) P( C) P( G) = 0.2*0.21*0.18*0.2*0.3 =0.0004536 dır. Sitelerin bağımsız olması veri kümesi (training set) üzerinde yapılan hipotez testleri sonucunda ortaya çıkartılmış olabilir veya önceden biliniyor olabilir. Bir işaret (sinyal) için site içeriklerinin rasgele bir nükleotidden başlayıp birinci dereceden homojen bir Markov zincirine göre oluştuklarını düşünelim. Birinci sitedeki A,C,G,T lerin olasılık dağılımını ve Markov zincirindeki geçiş olasılıklarını bilmiyor olalım. Elimizde bu işaret ile ilgili 265 gözlemlik bir küme (training set) bulunsun. Amacımız, bu gözlemler içinde bulunmayan s=tatat dizi parçasının bu işaretin bir üyesi olması olasılığını hesaplamak olsun.
[ A, A, T, T, T] [ C, G, T, A, A] [ G, G, A, C, A] [ C, G, G, T, T] [ G, A, G, C, G] [ T, T, A, A, T] [ C, G, T, T, C] [ A, T, T, T, T] [ A, T, T, A, C] [ T, C, A, A, A] [ A, C, T, T, A] [ T, G, G, A, T] [ C, C, A, T, A] [ G, C, C, T, G] [ C, T, A, T, T] [ T, A, A, T, T] [ G, G, G, T, T] [ A, A, A, G, G] [ T, C, T, A, C] [ G, C, C, A, A] [ G, T, A, G, C] [ T, T, G, T, T] [ T, A, A, T, A] [ A, A, A, C, A] [ G, T, A, A, C] [ T, T, A, T, A] [ C, C, A, G, T] [ G, T, G, A, T] [ C, A, G, C, C] [ C, T, A, A, C] [ G, A, G, G, T] [ A, C, A, A, A] [ T, C, A, T, C] [ A, T, A, A, A] [ C, C, A, T, C] [ C, C, T, T, G] [ A, T, T, A, T] [ C, G, G, T, T] [ C, T, G, C, T] [ G, G, T, T, T] [ C, G, G, A, C] [ G, T, C, G, T] [ G, T, G, G, A] [ T, G, C, A, T] [ C, G, G, A, T] [ T, T, G, A, C] [ T, A, C, A, G] [ T, C, C, T, A] [ A, T, A, T, T] [ A, A, T, T, A] [ C, G, G, A, T] [ G, T, A, A, T] [ T, T, A, A, T] [ C, T, T, C, C] [ A, A, A, T, A] [ G, A, A, A, C] [ T, A, A, T, A] [ A, G, T, C, A] [ C, G, T, A, C] [ T, C, A, C, T] [ A, A, A, T, T] [ C, A, A, G, A] [ G, A, T, C, C] [ C, G, G, T, T] [ T, A, T, A, A] [ A, A, T, T, T] [ G, T, G, G, A] [ G, A, C, G, A] [ T, G, G, G, A] [ G, A, A, C, T] [ T, G, T, A, A] [ G, C, G, G, C] [ C, C, C, C, C] [ C, C, A, C, C] [ G, G, G, G, G] [ T, C, T, A, C] [ G, G, C, G, T] [ A, T, A, G, G] [ T, A, A, T, G] [ T, A, T, A, T] [ G, C, T, A, A] [ G, G, C, G, T] [ T, T, A, T, A] [ A, C, A, A, T] [ T, T, C, A, G] [ G, A, G, C, A] [ C, G, G, G, G] [ C, T, C, G, C] [ A, A, G, T, A] [ A, A, A, T, A] [ A, C, C, G, C] [ A, A, T, T, G] [ G, C, A, T, G] [ A, T, A, A, C] [ G, G, G, G, A] [ A, T, A, A, T] [ G, A, G, T, C] [ T, T, A, A, C] [ C, C, G, A, A] [ A, G, A, A, G] [ C, A, G, C, T] [ A, T, A, A, C] [ T, T, A, A, T] [ C, G, G, G, T] [ A, A, A, G, T] [ G, C, A, A, G] [ A, T, A, A, T] [ A, T, C, T, T] [ T, T, C, A, T] [ A, A, A, A, C] [ C, T, C, C, G] [ C, A, T, T, T] [ T, T, A, G, A] [ T, G, T, A, T] [ G, C, T, G, T] [ C, G, C, C, A] [ A, C, C, A, A] [ A, T, G, T, T] [ A, T, A, A, A] [ C, A, T, C, A] [ C, G, C, A, T] [ A, T, T, A, T] [ A, A, A, G, T] [ A, A, A, T, A] [ G, T, A, A, A] [ G, G, C, C, G] [ C, A, A, C, C] [ T, T, C, A, G] [ A, T, G, T, A] [ A, G, C, C, T] [ T, T, T, A, A] [ T, T, C, T, T] [ T, G, G, A, T] [ T, A, A, A, A] [ A, G, A, G, T] [ G, G, G, G, A] [ A, T, A, A, A] [ T, A, A, G, A] [ A, T, T, T, A] [ G, T, T, C, G] [ T, T, T, T, G] [ C, A, T, G, C] [ G, G, G, A, G] [ G, G, C, G, G] [ C, A, G, G, A] [ A, G, A, A, A] [ A, A, G, G, T] [ T, T, G, C, T] [ G, C, C, C, G] [ G, C, G, C, G] [ G, T, A, C, G] [ T, T, T, T, G] [ A, A, T, A, T] [ A, T, A, T, A] [ T, G, A, C, T] [ C, A, T, A, C] [ C, C, T, C, C] [ C, G, G, T, C] [ A, T, T, T, A] [ A, G, C, A, A] [ G, T, C, A, A] [ C, A, G, G, T] [ T, T, T, T, T] [ C, A, C, C, G] [ A, A, A, C, T] [ A, A, T, T, T] [ T, A, T, T, C] [ A, C, C, C, C] [ G, T, C, A, A] [ A, T, C, A, T] [ T, A, A, A, A] [ G, C, G, C, C] [ C, G, C, A, G] [ T, T, C, T, T] [ T, A, A, C, T] [ G, G, T, C, C] [ C, C, G, A, C] [ G, T, C, A, G] [ A, T, A, G, A] [ C, C, T, A, G] [ A, C, A, A, T] [ G, A, T, G, C] [ C, C, G, G, T] [ A, C, A, A, A] [ A, G, T, C, T] [ C, A, C, T, G] [ C, C, G, T, C] [ A, C, G, T, T] [ A, A, T, T, G] [ G, T, A, T, A] [ T, G, A, T, G] [ T, T, T, T, T] [ C, G, G, C, T] [ C, T, C, T, A] [ C, T, T, C, G] [ G, T, T, G, A] [ T, G, A, A, T] [ A, A, T, T, T] [ A, A, T, T, C] [ G, A, C, T, C] [ G, G, A, G, C] [ C, A, A, T, T] [ G, A, G, C, G] [ T, C, T, A, C] [ C, T, A, T, C] [ A, T, T, A, A] [ T, A, T, T, G] [ A, A, T, G, T] [ G, G, A, T, G] [ A, G, A, T, T] [ A, A, C, T, A] [ C, C, C, T, A] [ A, T, T, A, T] [ A, A, A, A, T] [ G, G, G, C, A] [ C, A, A, G, C] [ T, G, A, C, T] [ T, T, T, A, A] [ C, A, T, A, C] [ C, T, C, A, C] [ C, A, T, T, G] [ G, C, T, A, A] [ T, T, A, T, A] [ T, T, A, A, A] [ C, A, T, T, C] [ G, T, T, A, C] [ T, A, A, A, G] [ T, T, C, T, T] [ C, C, C, C, T] [ G, G, A, T, C] [ G, T, C, G, A] [ C, A, C, A, A] [ T, A, C, T, A] [ A, T, A, T, A] [ A, T, T, A, A] [ T, A, T, A, A] [ G, G, A, T, T] [ C, A, A, T, T] [ G, T, A, G, G] [ A, A, A, C, C] [ T, A, G, A, T] [ G, C, A, T, A] [ G, G, C, A, C] [ A, G, G, C, T] [ A, A, A, A, T] [ T, T, T, T, T] [ T, C, T, T, T] [ C, A, C, T, C] [ C, G, A, T, T] [ A, C, T, A, C] [ G, A, C, A, T] [ C, G, C, T, G] [ G, G, T, A, G] [ C, C, C, G, C] [ T, A, A, A, T] [ A, C, T, A, T] [ T, T, T, A, T] [ A, T, G, A, A] [ G, G, G, G, T] [ T, G, A, A, G
100 90 80 70 60 50 40 30 20 10 0 1 1.5 2 2.5 3 3.5 4 Sitelerin gözlenen oranları: A 0.2717 0.28679 0.35849 0.35094 0.27547 C 0.23774 0.17358 0.18868 0.15849 0.20377 G 0.23396 0.21887 0.19245 0.16226 0.15849 T 0.2566 0.32075 0.26038 0.3283 0.36226 Siteler arasında Kullback-Leibler Uzaklıkları (sitelerin karşılıklı bilgi değerleri) matrisi: - 22.353 28.14 44.971 37.643 22.353-18.217 15.786 15.591 28.14 18.217-15.812 21.877 44.971 15.786 15.812-12.74 37.643 15.591 21.877 12.74 - Siteler arasındaki (ikili) olasılık dağılımlarının bağımsızlığını test eden ki-kare istatistiğinin hesaplanan değerleri matrisi: - 42.979 50.743 77.427 70.653 42.979-39.303 31.516 33.241 50.743 39.303-29.478 48.232 77.427 31.516 29.478-24.532 70.653 33.241 48.232 24.532 - Geçiş olasılıkları matrisinın tahmini P =[ 0.31183 0.22581 0.12903 0.33333 0.16667 0.2619 0.2381 0.33333 0.30233 0.2093 0.13953 0.34884 0.27586 0.14943 0.16092 0.41379] Sitelerin ikili bağımsızlık hipotezlerinin reddedileceği açıkça görülmektedir. Birinci site için hesaplanan ki-kare değerlerinin toplamı en büyüktür. Aynı şekilde, birinci site için hesaplanan Kullback-Leibler Uzaklıkları (karşılıklı bilgi değerleri) toplamı diğer sitelerinkinden daha büyüktür. Diğer siteler bu siteye bağımlı görünmektedir.
Đşaret (sinyal) rasgele bir nükleotidden başlayıp birinci dereceden homojen bir Markov zincirine göre dizilmiş 5 bazlık bir DNA parçasıdır gibi bir model (Homojen Markov Zinciri Modeli, HMZM) göz önüne alınırsa, s=tatat dizi parçasının bu işaret için bir üye olması olasılığı, dır. Örneğin, P( s / HMZM ) = P( TATAT / HMZM ) = P( T ) P( A/ T ) P( T / A) PA / T ) P( T / A) = 0.27586*0.14943*0.33333*0.14943*0.33333 =0.00062025 P( AAAAA/ HMZM ) = P( A) P( A/ A) P( A/ A) PA/ A) P( A / A) = 0.25*0.31183 *0.31183 *0.31183 *0.31183 =0.0023638 P( TTTTT / HMZM ) = P( T ) P( T / T ) P( T / T ) P( T / T ) P( T / AT ) = 0.25*0.41379 *0.41379 *0.41379 *0.41379 =0.0073293 ( GGGGG / HMZM ) = P( G) P( G / G) P( G / G) PP( G / G)( P( G / G) = 0.25*0.13953*0.13953*0.13953*0.13953 =0.000095 dır. Đşaret, kisi için neden böyle bir HMZ Modeli seçmiş olabilir? Yukarıda veriler aşağıdaki Matlab programı ile üretilmiş ve gerekli hesaplamalar bu program ile yapılmıştır. clc;clear all;close all;rand('seed',0) P=[.4.1.1.4;.25.25.25.25;.25.25.25.25;.4.1.1.4]; nn=size(p,1); n=265; for dizip=1:n zincir(1)=fix(rand(1,1)*4+1);; for ii=2:5 i=zincir(1); a=rand(1,1); Durum=1; for j=1:(nn-1) if a>sum(p(i,1:j)) Durum=j+1;, zincir(ii)=durum; syms A C G T for k=1:size(zincir,2) if zincir(k)==1 dna(k)=a; if zincir(k)==2 dna(k)=c;
if zincir(k)==3 dna(k)=g; if zincir(k)==4 dna(k)=t; M(dizip,:)=zincir; MM(dizip,:)=dna; MM M hist(m) figure 'Her sutun icin gozlenen frekanslar' fr=zeros(4,size(m,2)); for j=1:1:5 for k=1:size(m(:,j),1) if M(k,j)==1 fr(1,j)=fr(1,j)+1; if M(k,j)==2 fr(2,j)=fr(2,j)+1; if M(k,j)==3 fr(3,j)=fr(3,j)+1; if M(k,j)==4 fr(4,j)=fr(4,j)+1; fr/n 'Iki sutun karsılastırması' for s=1:1:(size(m,2)) for ss=1:1:(size(m,2)) bb=zeros(nn,nn); for i=1:1:size(m,1) for j=1:nn for k=1:nn if [j k]==[m(i,s) M(i,ss)] bb(j,k)=bb(j,k)+1;,,, bboran=bb/sum(sum(bb)); rj=sum(bboran); pi=sum(bboran'); bbbagimsiz=rj'*pi; kikarehes(s,ss)=sum(sum(((bboran-bbagimsiz).^2)./bbbagimsiz))*sum(sum(bb)); %p_value=1-chi2cdf(kikarehes,(size(p,1)-1)*(size(p,2)-1)) KL(s,ss)=sum(sum(bb.*log(bboran./bbbagimsiz)));, KL kikarehes
'Ardışık iki sutun karsılastırması' for s=1:1:(size(m,2)-1) bb=zeros(nn,nn); for i=1:1:size(m,1) for j=1:nn for k=1:nn if [j k]==[m(i,s) M(i,s+1)] bb(j,k)=bb(j,k)+1;,,, bb; bboran=bb/sum(sum(bb)); rj=sum(bboran); pi=sum(bboran'); bbbagimsiz=pi'*rj; KL1(s)=sum(sum(bb.*log(bboran./bbbagimsiz))); KL1 'Geçiş olasılıkları matrisinın tahmini' for s=1:1:(size(m,2)-1) bb=zeros(nn,nn); P=zeros(nn,nn); for i=1:1:size(m,1) for j=1:nn for k=1:nn if [j k]==[m(i,s) M(i,s+1)] bb(j,k)=bb(j,k)+1;,,, P=P+bb; P(1,:)=P(1,:)/sum(P(1,:)); P(2,:)=P(2,:)/sum(P(2,:)); P(3,:)=P(3,:)/sum(P(3,:)); P(4,:)=P(4,:)/sum(P(4,:)); P Đşaret ile ilgili model homojen olmayan Markov zinciri olduğunda her site için ayrı ayrı geçiş olasılıkları matrisi söz konusu olacaktır ve çok sayıda gözleme ihtiyaç duyulacaktır. Đşareti kullanan olgu, Markov zinciri yerine, siteleri arasında çok daha karmaşık bir bağımlılık yapısına göre işareti oluşturuyor olabilir. Đşaretin üyelerinin kümesi küçük (az sayıda elemana sahip) olabilir. Örneğin, 5 harfli (nükleotidli) bir dizi parçasından oluşan bir işaretin ortadaki harfi C veya G harflerinden biri ve diğer 4 harfi ortadaki harfe göre simetrik bir şekilde sadece A ile T lerden oluşuyor olabilir. Bu işaretin üyeleri, AACAA AAGAA ATCTA ATGTA TACAT TAGTA TTCTT TTCTT Đşaretin bir tek üyesi (kodu) bulunabilir. Đşaretler çok sayıda üyeye sahip olup, üye kümesinin yapısını ortaya çıkarmak kolay olmayabilir.