Uygulama 6. Transkripsiyon yönü. Ekzonlar (kodlama bölgeleri) Transkripsiyon. Sonlandırıcı kodon başlangıcı



Benzer belgeler
DNA dan Protein lere

BÖLÜM 14 BİLGİSAYAR UYGULAMALARI - 3 (ORTALAMALARIN KARŞILAŞTIRILMASI)

hendisliği BYM613 Genetik MühendisliM Tanımlar: Gen, genom DNA ve yapısı, Nükleik asitler Genetik şifre DNA replikasyonu

YÖNEYLEM ARAŞTIRMASI-2 -Markov Zincirleri-

DNA Replikasyonu. Doç. Dr. Hilal Özdağ. A.Ü Biyoteknoloji Enstitüsü Merkez Laboratuvarı Tel: /202 Eposta:

RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI. Yrd. Doç. Dr. Emre ATILGAN

RNA Yapısı ve Katlanması, Hücrede Bulunan RNA Çeşitleri

BMB204. Veri Yapıları Ders 12. Dizgi Eşleme (String Matching) Algoritmaları İleri Veri Yapıları

Ders 10 - Diğer küçük kodlamayan RNA lar

Ders 5 - mrna yapısı, İşlenmesi ve İşlevleri - I -

Biyoteknoloji ve Genetik II. Hafta 8 TRANSLASYON

Gen Organizasyonu ve Genomların Evrimi

MOLEKÜLER BİYOLOJİ DOÇ. DR. MEHMET KARACA (5. BÖLÜM)

Replikasyon, Transkripsiyon ve Translasyon. Yrd. Doç. Dr. Osman İBİŞ

7. PROKARYOTLARDA GEN İFADESİNİN DÜZENLENMESİ

7. PROKARYOTLARDA GEN İFADESİNİN DÜZENLENMESİ

Konu 4 Genetik Şifre ve Transkripsiyon

rasgele değişkeninin olasılık yoğunluk fonksiyonu,

Zahmetsiz örüntü tanıma: Nokta bulutlarının karşılaştırılması yoluyla veri-tabanlı ve parametresiz istatistiksel öğrenme

b. Amaç: Gen anatomisi ile ilgili genel bilgi öğretilmesi amaçlanmıştır.

TRANSLASYON VE DÜZENLENMESİ

YAZILIYA HAZIRLIK SORULARI. 12. Sınıf 1 GENDEN PROTEİNE

DNA Dizileme (Sekanslama)

1. Sınıf Güz Dönemi I. Hafta Pazartesi Salı Çarşamba Perşembe Cuma Ders Saati

Transkripsiyon (RNA Sentezi) Dr. Mahmut Çerkez Ergören

Yrd. Doç. Dr. Neşet Demirci, Balıkesir Üniversitesi NEF Fizik Eğitimi. Parametrik Olmayan Testler. Ki-kare (Chi-Square) Testi

MIT OpenCourseWare Ekonomide İstatistiksel Yöntemlere Giriş Bahar 2009

Genetik şifre, Transkripsiyon ve Translasyon ASLI SADE MEMİŞOĞLU

PROKARYOTLARDA GEN EKSPRESYONU. ve REGÜLASYONU. (Genlerin Gen Ürünlerine Dönüşümünü Kontrol Eden Süreçler)

Gezgin Satıcı Probleminin İkili Kodlanmış Genetik Algoritmalarla Çözümünde Yeni Bir Yaklaşım. Mehmet Ali Aytekin Tahir Emre Kalaycı

GEN EKSPRESYONUNUN KONTROLÜ VE DÜZENLENMESİ GEN İFADESİ

ALGORİTMA VE PROGRAMLAMA I DERS NOTU#8

DNA ONARIMI VE MUTASYON. Merve Tuzlakoğlu Öztürk Bakteri genetiği dersi Sunum

Tanımlamalar PROTEİN SENTEZİ; TRANSLASYON. Protein sentezi ;translasyon. mrna ; Genetik şifre 1/30/2012. Prof Dr.Dildar Konukoğlu

LYS ANAHTAR SORULAR #4. Nükleik Asitler ve Protein Sentezi

Veri Ağlarında Gecikme Modeli

Hafta VIII Rekombinant DNA Teknolojileri

Yrd.Doç.Dr. Yosun MATER

Biyoteknoloji ve Genetik I Hafta 13. Ökaryotlarda Gen İfadesinin Düzenlenmesi

MATEMATİK ÖĞRETMENLİK ALAN BİLGİSİ - DENEME SINAVI DENEME. Diğer sayfaya geçiniz.

Merkezi Yığılma ve Dağılım Ölçüleri

GOÜ TIP FAKÜLTESİ DÖNEM I III. KURUL

12. SINIF KONU ANLATIMI 6 GENETİK ŞİFRE VE PROTEİN SENTEZİ 2

Ayrık Fourier Dönüşümü

DNA dan Kromozomlara

GENETİK ŞİFRE PROF. DR. SERKAN YILMAZ

Genetik Şifre ve Transkripsiyon

Yrd.Doç.Dr. Yosun MATER

JEODEZİK VERİLERİN İSTATİSTİK ANALİZİ. Prof. Dr. Mualla YALÇINKAYA

SÜREKLİ ŞANS DEĞİŞKENLERİ. Üstel Dağılım Normal Dağılım

GENETİK ŞİFRE. Prof. Dr. Filiz ÖZBAŞ GERÇEKER

İstatistik ve Olasılık

Hücre Nükleusu, Nükleus Membranı, Nükleus Porları. Doç. Dr. Ahmet Özaydın

Prokaryotik promotor

Örneklemden elde edilen parametreler üzerinden kitle parametreleri tahmin edilmek istenmektedir.

2.1 Gri Düzey Eş Oluşum Matrisi ( GLCM) Gri düzey eş oluşum matrisi Haralick tarafından öne sürülmüştür [1]. Đstatistiksel doku analizi yöntemidir.

Rasgele Sayı Üretme. Rasgele Sayıların Özellikleri. İki önemli istaiksel özelliği var :

İnsan Mikrobiyom Projesi. Prof. Dr. Tanıl Kocagöz

Kullanılacak İstatistikleri Belirleme Ölçütleri. Değişkenin Ölçek Türü ya da Yapısı

KALITSAL MOLEKÜLÜN BİÇİMİ ve ORGANİZASYONU PROF. DR. SERKAN YILMAZ

Genetik Kavramlar Sekizinci baskıdan çeviri Klug, Cummings, Spencer

TRANSLASYON ve PROTEİNLER

İleri Diferansiyel Denklemler

GENOMUN YAPISI. Genom Nedir? Gen ve Genomun tanımı Genom Büyüklükleri DNA Dizi Tipleri 11/11/14. Doç. Dr. Metin Aytekin

MATE211 BİYOİSTATİSTİK

Genden proteine Genler, transkripsiyon ve translasyon yolu ile proteinleri belirler Transkripsiyon, DNA yönetiminde RNA sentezidir Ökaryotik

Yrd. Doç. Dr. Fatih TOSUNOĞLU Erzurum Teknik Üniversitesi Mühendislik Fakültesi İnşaat Mühendisliği Bölümü

DENİZ HARP OKULU ENDÜSTRİ MÜHENDİSLİĞİ BÖLÜM BAŞKANLIĞI DERS TANITIM BİLGİLERİ

Rekombinasyon ve Bağlantı Analizi (Recombination and Linkage Analysis)

Populasyon Genetiği. Populasyonlardaki alel ve gen frekanslarının değişmesine neden olan süreçleri araştıran evrimsel bilim dalı.

Graf Veri Modeli. Düğümler kümesi. Kenarlar kümesi

Bir enzim olarak RNA ve Riboşalterler

ÖĞLE ARASI ÖĞLE ARASI

Biyoteknoloji ve Genetik I Hafta 12. Prokaryotlarda Gen İfadesinin Düzenlenmesi

AVRASYA ÜNİVERSİTESİ

DNA dan Kromozomlara

Genler ve proteinler arasındaki temel ilişki

Ki-Kare Bağımsızlık Analizi

TÜBİTAK BİDEB LİSE ÖĞRETMENLERİ-FİZİK, KİMYA, BİYOLOJİ, MATEMATİK- PROJE DANIŞMANLIĞI EĞİTİMİ ÇALIŞTAYI (LİSE-3 [ÇALIŞTAY 2013])

Kompozit Malzemeler ve Mekaniği. Yrd.Doç.Dr. Akın Ataş

POLİMERAZ ZİNCİR REAKSİYONU (PZR-PCR) VE RESTRİKSİYON PARÇA UZUNLUĞU POLİMORFİZMİ (RFLP)

BÖLÜM-1.BİLİM NEDİR? Tanımı...1 Bilimselliğin Ölçütleri...2 Bilimin İşlevleri...3

Ders 8 trna-rrna yapısı, İşlenmesi ve İşlevleri

BÖLÜM 1 GİRİŞ: İSTATİSTİĞİN MÜHENDİSLİKTEKİ ÖNEMİ

ÖRNEKLER-VEKTÖR UZAYLARI 1. Çözüm: w=k 1 u+k 2 v olmalıdır.

Transgenik Hayvan Üretimi. Hayvancılıkta biyoteknoloji dersi

Ki- Kare Testi ANADOLU ÜNİVERSİTESİ. ENM 317 MÜHENDİSLİK İSTATİSTİĞİ İYİ UYUM TESTİ Prof.Dr. Nihal ERGİNEL

İşlevsel Genomik Nedir?

GENETİK POLİMORFİZMLER. Prof. Dr. Filiz ÖZBAŞ GERÇEKER

İ. Ü İstanbul Tıp Fakültesi Tıbbi Biyoloji Anabilim Dalı Prof. Dr. Filiz Aydın

Genetik materyal: DNA replikasyonu

-ÖRÜNTÜ NEDİR? Bir örnek verebilir misin?

Moleküler Biyoloji ve Genetik Bölümü Boğaziçi Üniversitesi

Hücrede Genetik Bilgi Akışı

VERİ SETİNE GENEL BAKIŞ

ÇOK HÜCRELİ ORGANİZMALARIN GELİŞİMİ

BİYOİNFORMATİK CİHAN SUVARİ

BİYOİSTATİSTİK DERSLERİ AMAÇ VE HEDEFLERİ

Transkript:

Uygulama 6 DNA Dizilerinde Bazı Đstatistiksel Analizler DNA molekülleri nükleotidlerin uzun birer dizileridir. Dizilenmiş bir DNA molekülüne A,C,G,T harflerinin oluşturduğu bir kelimelik uzun bir yazı olarak bakabiliriz. 23 kromozomda bulunan insan genomu 3.2 Gb olup 25000 gene sahip olduğu tahmin edilmektedir. Birinci kromozomda baz sayısı 247,200,000 ve gen sayısı 3,148 dır. Đnsan genomunun, yani DNA nın yaklaşık %1.5 lik kısmı (yaklaşık 25,000 gen) protein kodlamaktadır. Protein kodlamayan DNA dizisindeki bölgeler intronlardaki DNA, bazı tekrarlanan DNA (repetitif DNA) ve Alu elemetleridir. Đnsan genomunun kodlayıcı olmayan büyük kısmı intronlardadır. Đntronlar, kiliğinden veya enzimler tarafından katalize olarak transkripsiyon esnasında düşüp ayrılmaktadırlar (splicing). Đntron-ekzon bağlanma yerlerini belirlemek biyoinformatikte önemli problemlerden biridir. Bir gen komşuluğundaki genomun yapısı genel olarak aşağıdaki gibidir. Transkripsiyon yönü Ekzonlar (kodlama bölgeleri) Transkripsiyon Sonlandırıcı kodon başlangıcı (UAG,UGA veya UAA) 5 3 Promoter (tetikleyici bölge, ilgili özel enzimle aktifleştirilmektedir) 5 translasyon gerçekleşmeyen bölge Đntronlar (ara bölgeler) AAAAAA... Polyadenilation signal 3 translasyon gerçekleşmeyen bölge DNA dizisinde genlerin başlangıç ve sonunu, intron-ekzon geçişlerini ve belli işlevi olan bölgeleri belirten bir takım işaretler (sinyaller) bulunmaktadır. Hücre mekanizması bu işaretlere göre işlevini yapmaktadır. Bir işaret (sinyal) kısa bir DNA parçasıdır (dizi parçasıdır). Belli amaçlı, böyle bir işaret tek biçimli ve DNA dizinde görevi olmayan yerlerde bulunmamalıdır diye içimizden geçirebiliriz. Ancak durum böyle değildir. Bir işaretin (sinyalin) işlevini yaptıran çok sayıda farklı DNA parçaları bulunmaktadır. Bunlara işaretin (sinyalin) üyeleri denmektedir. Ayrıca bu üyeler DNA dizisinin işlevsiz bölgelerinde de rasgele olarak ortaya çıkmaktadır. Dolayısıyla bu üyeler gözliğinde işlevi olanlarla olmayanları sınıflandırmak zor olmaktadır.

Günümüzde, işaretlerin (sinyallerin) tümü olmasa da bir kısmı bilinmektedir. Bir işaretin bilinen üyelerini kullanarak, yeni bir DNA parçasının bu işaret ile ilgili bir üye olma olasılığını hesaplamak bir araştırma konusudur. Üyelik olasılıklarının hesaplanmasında temel bir varsayım, farklı üyelerin aynı atadan kaynaklanıp bazı stokastik süreçler sonucu ortaya çıkmalarıdır. Bu sebeple, gözlemleri (gözlemleri üreten olguyu) anlatan stokastik modeller kurmak akıllıca görünmektedir. Uygulamalardan görüldüğü kadarıyla bazı işaretler (sinyaller) oldukça basit modellere sahiptir, bazıları ise çok karmaşık modellere sahiptir. Anlaşılması (modellenmesi) karmaşık olan işaretleri ortaya çıkarmak için çok sayıda gözleme ihtiyaç duyulmaktadır. Bir işaretin (sinyalin) bazı üyelerinin veri kümesi (training data) elimizse bulunursa, başka bir DNA parçasının bu veri kümesinin üyesi olması olasılığı hesaplanabilir. Bunu yapmak için elimizdeki veri kümesini (training data) kullanarak sinyalin özelliklerinin modellenmesi gerekir. Đnsan genlerindeki bazı işaretlerin (sinyallerin) gözlenmiş üyelerinin kümelerini bulunduran veri tabanları hazırlanmıştır ve kullanıma açıktır Bu derste, bir işaretin (sinyalin) tüm üyelerinin aynı baz uzunluklu DNA parçaları olduğunu varsayacağız. Örneğin, bir işaret ile ilgili 100 üyelik küme (training set) aşağıdaki gibi olsun. [ C, T, T, A, G] [ T, T, T, G, C] [ C, T, T, A, A] [ A, A, C, C, G] [ T, T, A, C, T] [ G, C, T, T, T] [ A, C, A, G, T] [ G, A, T, G, A] [ C, G, A, A, T] [ G, T, T, A, T] [ A, G, T, G, A] [ C, G, C, C, G] [ C, A, G, G, A] [ T, T, A, C, A] [ C, T, T, T, T] [ C, A, T, C, A] [ A, A, T, T, T] [ A, A, T, T, A] [ G, A, A, A, T] [ G, C, G, A, A] [ C, C, C, T, G] [ T, T, T, C, G] [ C, G, C, A, C] [ G, C, G, G, C] [ C, A, T, A, C] [ T, G, C, A, G] [ G, G, T, C, A] [ T, C, G, T, A] [ G, A, A, G, T] [ T, T, T, C, T] [ T, G, A, G, G] [ C, A, G, G, T] [ T, T, T, A, C] [ T, T, G, A, T] [ G, C, A, A, A] [ G, G, C, G, C] [ C, A, T, A, C] [ C, A, T, T, G] [ T, T, C, G, C] [ A, T, A, T, G] [ T, G, G, C, A] [ G, T, T, G, C] [ G, C, A, G, A] [ G, C, T, T, A] [ T, A, G, G, A] [ T, G, A, G, G] [ T, A, C, A, G] [ A, G, A, A, A] [ A, G, G, G, G] [ C, G, A, G, T] [ C, G, T, C, G] [ T, T, T, T, T]

[ T, G, C, A, C] [ C, G, T, T, G] [ T, G, C, A, A] [ C, T, A, T, A] [ C, C, T, G, G] [ G, C, T, A, G] [ C, G, A, T, A] [ G, G, G, A, G] [ A, C, G, T, A] [ C, T, A, C, G] [ G, A, T, T, A] [ G, C, T, A, A] [ C, T, G, C, T] [ T, G, C, T, G] [ A, A, A, G, T] [ A, A, A, C, T] [ T, T, T, T, C] [ G, C, T, A, C] [ G, G, A, G, A] [ G, C, G, C, T] [ A, T, G, G, G] [ A, C, T, G, A] [ T, C, C, A, G] [ G, T, A, C, G] [ T, G, G, G, T] [ G, C, G, T, G] [ T, G, G, C, T] [ G, T, G, A, A] [ T, C, G, A, C] [ A, T, G, T, T] [ A, G, T, A, C] [ A, G, C, A, A] [ A, G, C, A, G] [ T, A, C, C, G] [ T, G, A, A, T] [ G, T, T, G, C] [ C, C, G, G, G] [ T, C, A, T, C] [ C, G, C, A, A] [ A, A, A, G, G] [ G, T, A, G, G] [ G, T, T, G, C] [ A, C, T, C, T] [ T, A, C, T, G] [ G, A, G, A, G] [ C, G, A, C, C] [ A, G, A, C, A] [ C, C, C, T, A] Her site (sütün) için gözlenen oranlar: Site: 1 2 3 4 5 A 0.2 0.21 0.26 0.3 0.29 C 0.25 0.23 0.18 0.2 0.18 G 0.27 0.3 0.22 0.28 0.3 T 0.28 0.26 0.34 0.22 0.23 olmak üzere, 5 siteli bu işaret için sitelerin bağımsız olduğu bilinsin (B modeli geçerli olsun). Bu durumda üyeler arasında bulunmayan s=aaccg gibi bir DNA parçasının bu işaretin üyeler kümesine aday olması olasılığı, P( AACCG / B) = P( A) P( A) P( C) P( C) P( G) = 0.2*0.21*0.18*0.2*0.3 =0.0004536 dır. Sitelerin bağımsız olması veri kümesi (training set) üzerinde yapılan hipotez testleri sonucunda ortaya çıkartılmış olabilir veya önceden biliniyor olabilir. Bir işaret (sinyal) için site içeriklerinin rasgele bir nükleotidden başlayıp birinci dereceden homojen bir Markov zincirine göre oluştuklarını düşünelim. Birinci sitedeki A,C,G,T lerin olasılık dağılımını ve Markov zincirindeki geçiş olasılıklarını bilmiyor olalım. Elimizde bu işaret ile ilgili 265 gözlemlik bir küme (training set) bulunsun. Amacımız, bu gözlemler içinde bulunmayan s=tatat dizi parçasının bu işaretin bir üyesi olması olasılığını hesaplamak olsun.

[ A, A, T, T, T] [ C, G, T, A, A] [ G, G, A, C, A] [ C, G, G, T, T] [ G, A, G, C, G] [ T, T, A, A, T] [ C, G, T, T, C] [ A, T, T, T, T] [ A, T, T, A, C] [ T, C, A, A, A] [ A, C, T, T, A] [ T, G, G, A, T] [ C, C, A, T, A] [ G, C, C, T, G] [ C, T, A, T, T] [ T, A, A, T, T] [ G, G, G, T, T] [ A, A, A, G, G] [ T, C, T, A, C] [ G, C, C, A, A] [ G, T, A, G, C] [ T, T, G, T, T] [ T, A, A, T, A] [ A, A, A, C, A] [ G, T, A, A, C] [ T, T, A, T, A] [ C, C, A, G, T] [ G, T, G, A, T] [ C, A, G, C, C] [ C, T, A, A, C] [ G, A, G, G, T] [ A, C, A, A, A] [ T, C, A, T, C] [ A, T, A, A, A] [ C, C, A, T, C] [ C, C, T, T, G] [ A, T, T, A, T] [ C, G, G, T, T] [ C, T, G, C, T] [ G, G, T, T, T] [ C, G, G, A, C] [ G, T, C, G, T] [ G, T, G, G, A] [ T, G, C, A, T] [ C, G, G, A, T] [ T, T, G, A, C] [ T, A, C, A, G] [ T, C, C, T, A] [ A, T, A, T, T] [ A, A, T, T, A] [ C, G, G, A, T] [ G, T, A, A, T] [ T, T, A, A, T] [ C, T, T, C, C] [ A, A, A, T, A] [ G, A, A, A, C] [ T, A, A, T, A] [ A, G, T, C, A] [ C, G, T, A, C] [ T, C, A, C, T] [ A, A, A, T, T] [ C, A, A, G, A] [ G, A, T, C, C] [ C, G, G, T, T] [ T, A, T, A, A] [ A, A, T, T, T] [ G, T, G, G, A] [ G, A, C, G, A] [ T, G, G, G, A] [ G, A, A, C, T] [ T, G, T, A, A] [ G, C, G, G, C] [ C, C, C, C, C] [ C, C, A, C, C] [ G, G, G, G, G] [ T, C, T, A, C] [ G, G, C, G, T] [ A, T, A, G, G] [ T, A, A, T, G] [ T, A, T, A, T] [ G, C, T, A, A] [ G, G, C, G, T] [ T, T, A, T, A] [ A, C, A, A, T] [ T, T, C, A, G] [ G, A, G, C, A] [ C, G, G, G, G] [ C, T, C, G, C] [ A, A, G, T, A] [ A, A, A, T, A] [ A, C, C, G, C] [ A, A, T, T, G] [ G, C, A, T, G] [ A, T, A, A, C] [ G, G, G, G, A] [ A, T, A, A, T] [ G, A, G, T, C] [ T, T, A, A, C] [ C, C, G, A, A] [ A, G, A, A, G] [ C, A, G, C, T] [ A, T, A, A, C] [ T, T, A, A, T] [ C, G, G, G, T] [ A, A, A, G, T] [ G, C, A, A, G] [ A, T, A, A, T] [ A, T, C, T, T] [ T, T, C, A, T] [ A, A, A, A, C] [ C, T, C, C, G] [ C, A, T, T, T] [ T, T, A, G, A] [ T, G, T, A, T] [ G, C, T, G, T] [ C, G, C, C, A] [ A, C, C, A, A] [ A, T, G, T, T] [ A, T, A, A, A] [ C, A, T, C, A] [ C, G, C, A, T] [ A, T, T, A, T] [ A, A, A, G, T] [ A, A, A, T, A] [ G, T, A, A, A] [ G, G, C, C, G] [ C, A, A, C, C] [ T, T, C, A, G] [ A, T, G, T, A] [ A, G, C, C, T] [ T, T, T, A, A] [ T, T, C, T, T] [ T, G, G, A, T] [ T, A, A, A, A] [ A, G, A, G, T] [ G, G, G, G, A] [ A, T, A, A, A] [ T, A, A, G, A] [ A, T, T, T, A] [ G, T, T, C, G] [ T, T, T, T, G] [ C, A, T, G, C] [ G, G, G, A, G] [ G, G, C, G, G] [ C, A, G, G, A] [ A, G, A, A, A] [ A, A, G, G, T] [ T, T, G, C, T] [ G, C, C, C, G] [ G, C, G, C, G] [ G, T, A, C, G] [ T, T, T, T, G] [ A, A, T, A, T] [ A, T, A, T, A] [ T, G, A, C, T] [ C, A, T, A, C] [ C, C, T, C, C] [ C, G, G, T, C] [ A, T, T, T, A] [ A, G, C, A, A] [ G, T, C, A, A] [ C, A, G, G, T] [ T, T, T, T, T] [ C, A, C, C, G] [ A, A, A, C, T] [ A, A, T, T, T] [ T, A, T, T, C] [ A, C, C, C, C] [ G, T, C, A, A] [ A, T, C, A, T] [ T, A, A, A, A] [ G, C, G, C, C] [ C, G, C, A, G] [ T, T, C, T, T] [ T, A, A, C, T] [ G, G, T, C, C] [ C, C, G, A, C] [ G, T, C, A, G] [ A, T, A, G, A] [ C, C, T, A, G] [ A, C, A, A, T] [ G, A, T, G, C] [ C, C, G, G, T] [ A, C, A, A, A] [ A, G, T, C, T] [ C, A, C, T, G] [ C, C, G, T, C] [ A, C, G, T, T] [ A, A, T, T, G] [ G, T, A, T, A] [ T, G, A, T, G] [ T, T, T, T, T] [ C, G, G, C, T] [ C, T, C, T, A] [ C, T, T, C, G] [ G, T, T, G, A] [ T, G, A, A, T] [ A, A, T, T, T] [ A, A, T, T, C] [ G, A, C, T, C] [ G, G, A, G, C] [ C, A, A, T, T] [ G, A, G, C, G] [ T, C, T, A, C] [ C, T, A, T, C] [ A, T, T, A, A] [ T, A, T, T, G] [ A, A, T, G, T] [ G, G, A, T, G] [ A, G, A, T, T] [ A, A, C, T, A] [ C, C, C, T, A] [ A, T, T, A, T] [ A, A, A, A, T] [ G, G, G, C, A] [ C, A, A, G, C] [ T, G, A, C, T] [ T, T, T, A, A] [ C, A, T, A, C] [ C, T, C, A, C] [ C, A, T, T, G] [ G, C, T, A, A] [ T, T, A, T, A] [ T, T, A, A, A] [ C, A, T, T, C] [ G, T, T, A, C] [ T, A, A, A, G] [ T, T, C, T, T] [ C, C, C, C, T] [ G, G, A, T, C] [ G, T, C, G, A] [ C, A, C, A, A] [ T, A, C, T, A] [ A, T, A, T, A] [ A, T, T, A, A] [ T, A, T, A, A] [ G, G, A, T, T] [ C, A, A, T, T] [ G, T, A, G, G] [ A, A, A, C, C] [ T, A, G, A, T] [ G, C, A, T, A] [ G, G, C, A, C] [ A, G, G, C, T] [ A, A, A, A, T] [ T, T, T, T, T] [ T, C, T, T, T] [ C, A, C, T, C] [ C, G, A, T, T] [ A, C, T, A, C] [ G, A, C, A, T] [ C, G, C, T, G] [ G, G, T, A, G] [ C, C, C, G, C] [ T, A, A, A, T] [ A, C, T, A, T] [ T, T, T, A, T] [ A, T, G, A, A] [ G, G, G, G, T] [ T, G, A, A, G

100 90 80 70 60 50 40 30 20 10 0 1 1.5 2 2.5 3 3.5 4 Sitelerin gözlenen oranları: A 0.2717 0.28679 0.35849 0.35094 0.27547 C 0.23774 0.17358 0.18868 0.15849 0.20377 G 0.23396 0.21887 0.19245 0.16226 0.15849 T 0.2566 0.32075 0.26038 0.3283 0.36226 Siteler arasında Kullback-Leibler Uzaklıkları (sitelerin karşılıklı bilgi değerleri) matrisi: - 22.353 28.14 44.971 37.643 22.353-18.217 15.786 15.591 28.14 18.217-15.812 21.877 44.971 15.786 15.812-12.74 37.643 15.591 21.877 12.74 - Siteler arasındaki (ikili) olasılık dağılımlarının bağımsızlığını test eden ki-kare istatistiğinin hesaplanan değerleri matrisi: - 42.979 50.743 77.427 70.653 42.979-39.303 31.516 33.241 50.743 39.303-29.478 48.232 77.427 31.516 29.478-24.532 70.653 33.241 48.232 24.532 - Geçiş olasılıkları matrisinın tahmini P =[ 0.31183 0.22581 0.12903 0.33333 0.16667 0.2619 0.2381 0.33333 0.30233 0.2093 0.13953 0.34884 0.27586 0.14943 0.16092 0.41379] Sitelerin ikili bağımsızlık hipotezlerinin reddedileceği açıkça görülmektedir. Birinci site için hesaplanan ki-kare değerlerinin toplamı en büyüktür. Aynı şekilde, birinci site için hesaplanan Kullback-Leibler Uzaklıkları (karşılıklı bilgi değerleri) toplamı diğer sitelerinkinden daha büyüktür. Diğer siteler bu siteye bağımlı görünmektedir.

Đşaret (sinyal) rasgele bir nükleotidden başlayıp birinci dereceden homojen bir Markov zincirine göre dizilmiş 5 bazlık bir DNA parçasıdır gibi bir model (Homojen Markov Zinciri Modeli, HMZM) göz önüne alınırsa, s=tatat dizi parçasının bu işaret için bir üye olması olasılığı, dır. Örneğin, P( s / HMZM ) = P( TATAT / HMZM ) = P( T ) P( A/ T ) P( T / A) PA / T ) P( T / A) = 0.27586*0.14943*0.33333*0.14943*0.33333 =0.00062025 P( AAAAA/ HMZM ) = P( A) P( A/ A) P( A/ A) PA/ A) P( A / A) = 0.25*0.31183 *0.31183 *0.31183 *0.31183 =0.0023638 P( TTTTT / HMZM ) = P( T ) P( T / T ) P( T / T ) P( T / T ) P( T / AT ) = 0.25*0.41379 *0.41379 *0.41379 *0.41379 =0.0073293 ( GGGGG / HMZM ) = P( G) P( G / G) P( G / G) PP( G / G)( P( G / G) = 0.25*0.13953*0.13953*0.13953*0.13953 =0.000095 dır. Đşaret, kisi için neden böyle bir HMZ Modeli seçmiş olabilir? Yukarıda veriler aşağıdaki Matlab programı ile üretilmiş ve gerekli hesaplamalar bu program ile yapılmıştır. clc;clear all;close all;rand('seed',0) P=[.4.1.1.4;.25.25.25.25;.25.25.25.25;.4.1.1.4]; nn=size(p,1); n=265; for dizip=1:n zincir(1)=fix(rand(1,1)*4+1);; for ii=2:5 i=zincir(1); a=rand(1,1); Durum=1; for j=1:(nn-1) if a>sum(p(i,1:j)) Durum=j+1;, zincir(ii)=durum; syms A C G T for k=1:size(zincir,2) if zincir(k)==1 dna(k)=a; if zincir(k)==2 dna(k)=c;

if zincir(k)==3 dna(k)=g; if zincir(k)==4 dna(k)=t; M(dizip,:)=zincir; MM(dizip,:)=dna; MM M hist(m) figure 'Her sutun icin gozlenen frekanslar' fr=zeros(4,size(m,2)); for j=1:1:5 for k=1:size(m(:,j),1) if M(k,j)==1 fr(1,j)=fr(1,j)+1; if M(k,j)==2 fr(2,j)=fr(2,j)+1; if M(k,j)==3 fr(3,j)=fr(3,j)+1; if M(k,j)==4 fr(4,j)=fr(4,j)+1; fr/n 'Iki sutun karsılastırması' for s=1:1:(size(m,2)) for ss=1:1:(size(m,2)) bb=zeros(nn,nn); for i=1:1:size(m,1) for j=1:nn for k=1:nn if [j k]==[m(i,s) M(i,ss)] bb(j,k)=bb(j,k)+1;,,, bboran=bb/sum(sum(bb)); rj=sum(bboran); pi=sum(bboran'); bbbagimsiz=rj'*pi; kikarehes(s,ss)=sum(sum(((bboran-bbagimsiz).^2)./bbbagimsiz))*sum(sum(bb)); %p_value=1-chi2cdf(kikarehes,(size(p,1)-1)*(size(p,2)-1)) KL(s,ss)=sum(sum(bb.*log(bboran./bbbagimsiz)));, KL kikarehes

'Ardışık iki sutun karsılastırması' for s=1:1:(size(m,2)-1) bb=zeros(nn,nn); for i=1:1:size(m,1) for j=1:nn for k=1:nn if [j k]==[m(i,s) M(i,s+1)] bb(j,k)=bb(j,k)+1;,,, bb; bboran=bb/sum(sum(bb)); rj=sum(bboran); pi=sum(bboran'); bbbagimsiz=pi'*rj; KL1(s)=sum(sum(bb.*log(bboran./bbbagimsiz))); KL1 'Geçiş olasılıkları matrisinın tahmini' for s=1:1:(size(m,2)-1) bb=zeros(nn,nn); P=zeros(nn,nn); for i=1:1:size(m,1) for j=1:nn for k=1:nn if [j k]==[m(i,s) M(i,s+1)] bb(j,k)=bb(j,k)+1;,,, P=P+bb; P(1,:)=P(1,:)/sum(P(1,:)); P(2,:)=P(2,:)/sum(P(2,:)); P(3,:)=P(3,:)/sum(P(3,:)); P(4,:)=P(4,:)/sum(P(4,:)); P Đşaret ile ilgili model homojen olmayan Markov zinciri olduğunda her site için ayrı ayrı geçiş olasılıkları matrisi söz konusu olacaktır ve çok sayıda gözleme ihtiyaç duyulacaktır. Đşareti kullanan olgu, Markov zinciri yerine, siteleri arasında çok daha karmaşık bir bağımlılık yapısına göre işareti oluşturuyor olabilir. Đşaretin üyelerinin kümesi küçük (az sayıda elemana sahip) olabilir. Örneğin, 5 harfli (nükleotidli) bir dizi parçasından oluşan bir işaretin ortadaki harfi C veya G harflerinden biri ve diğer 4 harfi ortadaki harfe göre simetrik bir şekilde sadece A ile T lerden oluşuyor olabilir. Bu işaretin üyeleri, AACAA AAGAA ATCTA ATGTA TACAT TAGTA TTCTT TTCTT Đşaretin bir tek üyesi (kodu) bulunabilir. Đşaretler çok sayıda üyeye sahip olup, üye kümesinin yapısını ortaya çıkarmak kolay olmayabilir.