03.05.2012. Homoloji: Homolog iki gen, yüksek seviyede dizilim



Benzer belgeler
BĐYOLOJĐK VERĐ TABANLARINA GĐRĐŞ

BİYOİNFORMATİK CİHAN SUVARİ

Gen Organizasyonu ve Genomların Evrimi

Biyoenformatik te Dizi Kıyaslaması

BİYOİNFORMATİK ARAŞTIRMALARI VE ARAÇLARI

PROGRAMLAMAYA GİRİŞ. Öğr. Gör. Ayhan KOÇ. Kaynak: Algoritma Geliştirme ve Programlamaya Giriş, Dr. Fahri VATANSEVER, Seçkin Yay.

DERS BİLGİLERİ BTEC

Makine Öğrenimi Yaklaşımı ile Homolog Protein Tespiti

SNP TEK NÜKLEOTİD POLİMORFİZMLERİ (SINGLE NUCLEOTIDE POLYMORPHISMS)

Zeki Optimizasyon Teknikleri

Ders Bilgisi. Öğretim Görevlisi ORTA DOĞU TEKNİK ÜNİVERSİTESİ DERS İZLENCESİ. Ders Kodu Ders Bölümü.

GENETİK ALGORİTMA ÖZNUR CENGİZ HİLAL KOCA

10-Veri Tabanları.

Gezgin Satıcı Probleminin İkili Kodlanmış Genetik Algoritmalarla Çözümünde Yeni Bir Yaklaşım. Mehmet Ali Aytekin Tahir Emre Kalaycı

FRANSA DA ORTAÖĞRETİM İKİNCİ SINIF DERS KİTAPLARINDA EVRİM

VERİ TABANI YÖNETİM SİSTEMLERİ

GENETİK TANI YÖNTEMLERİ. Prof.Dr.Mehmet Alikaşifoğlu

DNA Dizileme (Sekanslama)

YZM ALGORİTMA ANALİZİ VE TASARIM DERS#3: ALGORİTMA ANALİZİ#2

BİYOİNFORMATİK GİZEM BAKKAL ZEYNEP TURAN ŞEYDA KARŞIYAKA ÜMMÜHAN YOZGAN GİZEM BOLAT

Uygulamalı Yapay Zeka. Dr. Uğur YÜZGEÇ Ders 2: Prolog Giriş

FİLOGENİ ve HAYAT AĞACI

Algoritma ve Akış Diyagramları

GEN MUTASYONLARI. Yrd. Doç. Dr. DERYA DEVECİ

SQL (Structured Query Language)

Replikasyon, Transkripsiyon ve Translasyon. Yrd. Doç. Dr. Osman İBİŞ

TC. İSTANBUL ÜNİVERSİTESİ ADLİ TIP ENSTİTÜSÜ İNSERSİYON/DELESYON (INDEL) MARKIRLARI VE TÜRKİYE POPULASYONU ARZU DÜVENCİ

Graflar bilgi parçaları arasındaki ilişkileri gösterirler.

Türkiye'de İnfluenza Sezonunda Görülen Influenza A(H1N1)pdm09 Virüsünün Moleküler Karakterizasyonu

Veritabanı Tasarımı. Basit Eşleme: Dönüşüm İşlemi

1. ÜNİTE : HÜCRE BÖLÜNMESİ VE KALITIM

13 Aralık Đlgili Versiyon/lar : ETA:SQL, ETA:V.8-SQL. Đlgili Modül/ler : Raporlar. Kullanıcı Tanımlı Raporlar Bölümünden Yapabildiklerimiz

NEDEN BİYOİNFORMATİK?

3.2. Raster Veriler. Satırlar. Sütunlar. Piksel/hücre büyüklüğü

Excel de Düşeyara Vlookup) Fonksiyonunun Kullanımı

Doç. Dr. Z. Ceren KARAHAN

Yeni Nesil Genomik Sistemler. ve Uygulamaları

TRANSLASYON VE DÜZENLENMESİ

ULAŞTIRMA MODELİ VE ÇEŞİTLİ ULAŞTIRMA MODELLERİ

MOLEKÜLER BİYOLOJİ DOÇ. DR. MEHMET KARACA (5. BÖLÜM)

Bölüm 2 Varlık-İlişki Veri Modeli: Araçlar ve Teknikler. Fundamentals, Design, and Implementation, 9/e

BLM-111 PROGRAMLAMA DİLLERİ I. Ders-10 Diziler. Yrd. Doç. Dr. Ümit ATİLA

Bu işleçlerin dışında, aşağıda belirtilen karşılaştırma işleçlerinden de yararlanılır.

DİZİLER-KATARLAR ALGORİTMA VE PROGRAMLAMA II

Yrd.Doç.Dr. Yosun MATER

DNA Replikasyonu. Doç. Dr. Hilal Özdağ. A.Ü Biyoteknoloji Enstitüsü Merkez Laboratuvarı Tel: /202 Eposta:

Yrd.Doç.Dr. Yosun MATER

Örnek 4: Örnek Özyinelemeli fonksiyon örneği Bölüm 9. C++ programlama dilinde Nesne ve sınıf

En Etkili Kemoterapi İlacı Seçimine Yardımcı Olan Moleküler Genetik Test

Biyolojik Veritabanları ve Biyoinformatik Analiz Araçları

TEMEL BİLGİSAYAR BİLİMLERİ. Programcılık, problem çözme ve algoritma oluşturma

BLM-431 YAPAY ZEKA. Ders-3 Durum Uzayında Arama. Yrd. Doç. Dr. Ümit ATİLA

TÜBİTAK BİDEB LİSE ÖĞRETMENLERİ-FİZİK, KİMYA, BİYOLOJİ, MATEMATİK- PROJE DANIŞMANLIĞI EĞİTİMİ ÇALIŞTAYI (LİSE-3 [ÇALIŞTAY 2013])

Biyoteknoloji ve Genetik II. Hafta 8 TRANSLASYON

BİL-341 ALGORİTMALAR BÜYÜK O NOTASYONU AHMET ATAKAN atakanahmet@hotmail.com KIRGIZİSTAN-TÜRKİYE MANAS ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ

AVRASYA ÜNİVERSİTESİ

Özyineleme (Recursion)

Internet Programming II

Oracle Database 11g: Introduction to SQL

Kromozom yapı değişimleri

Php İle Mysql Veritabanından Bilgi Çekme

enum bolumler{elektronik, insaat, bilgisayar, makine, gida};

DNA ONARIMI VE MUTASYON. Merve Tuzlakoğlu Öztürk Bakteri genetiği dersi Sunum

Uygulama 6. Transkripsiyon yönü. Ekzonlar (kodlama bölgeleri) Transkripsiyon. Sonlandırıcı kodon başlangıcı

Şimdi başka bir problem üzerinde çalışalım.

CANLILARIN SINIFLANDIRILMASI

hendisliği BYM613 Genetik MühendisliM Tanımlar: Gen, genom DNA ve yapısı, Nükleik asitler Genetik şifre DNA replikasyonu

MARMARA ÜNİVERSİTESİ TEKNOLOJİ FAKÜLTESİ MEKATRONİK MÜHENDİSLİĞİ BÖLÜMÜ ESNEK İMALAT SİSTEMLERİ DERS NOTLARI 2 Arş. Gör.

GENETİK ALGORİTMALAR BÜŞRA GÜRACAR

E-Bülten. Bilgi Merkezi Araç Çubuğu nu (Toolbar) yükleyebilirsiniz. Bilgi Merkezi Araç Çubuğu nun Avantajları

İlişkisel Veri Tabanları I

Veri Yapıları ve Algoritmalar

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

Hafta VIII Rekombinant DNA Teknolojileri

Bir dizinin boyutları sabittir ve kullanılmadan önce belirlenmelidir. Dizi boyutunu belirlemek için başka bir değişkende kullanabilirsiniz.

Dosyalarda Farklı Yaklaşımlar. Kütük Organizasyonu 1

Length: metin uzunluğunu yada diğer bir deyişle dizi elaman sayısını döndürür.

Teori (saat/hafta) Laboratuar (saat/hafta) BES BAHAR

ULAŞTIRMA MODELİ VE ÇEŞİTLİ ULAŞTIRMA MODELLERİ

Dr. Fatih AY Tel: fatihay@fatihay.net

Kısıtsız Optimizasyon OPTİMİZASYON Kısıtsız Optimizasyon

AVRASYA ÜNİVERSİTESİ

12. SINIF KONU ANLATIMI 6 GENETİK ŞİFRE VE PROTEİN SENTEZİ 2

6.046J/18.401J DERS 7 Kıyım Fonksiyonu (Hashing I) Prof. Charles E. Leiserson

Fiziksel Veritabanı Modelleme

3. Bölüm Algoritmalar

Veri Madenciliği Karar Ağacı Oluşturma

LABORATUARDA SEKANSLARIN TOPLANMASI VE DEPOLANMASI. Ayhan YILMAZ

Bilgisayar programlamanın üç temel mantık yapısından biridir. Diğer ikisi ise Seçilim(Selection) ve Döngü(Loop, Iteration)dür.

AKIŞ ŞEMASI AKIŞ ŞEMASI AKIŞ ŞEMASI ŞEKİLLERİ GİRİŞ

Dağıtık Sistemler CS5001

TBP101 (4. Hafta) Alıştırma Soruları ve Cevapları

BİYOLOJİ DERS NOTLARI YGS-LGS YÖNETİCİ MOLEKÜLLER

YAZILIYA HAZIRLIK SORULARI. 12. Sınıf 1 GENDEN PROTEİNE

Regular Expressions Version 0.1

Programın Tanıtımı


Algoritmalar ve Karmaşıklık

Transkript:

3.5.22 Nezahat Karahan DN, RN veya Protein dizilerinin düzenlenerek benzer bölgelerinin tespit edilmesidir. Biyoinformatikte birçok inceleme, iki ya da daha çok sayıda DN veya protein dizisinin karşılaştırılmasına d DN t i di i i i k l t l dayanmaktadır. DN: nükleotidlerin uzun bir dizisi Protein: aminoasitlerin uzun bir dizisi Dizi karşılaştırmasının temelinde dizi hizalama kavramı yatmaktadır. Örneğin elimizde ve gibi iki dizi parçası olsun; bu dizileri Karşılaştırması yapılan dizilerin benzerliğini ölçmek, türlerin karşılaştırılması, gen ailelerinin belirlenmesi ve akrabalık derecelerinin tespiti, ortak ata yönünden k b l k d l i i i i k ö ü d inceleme veya veya Şeklinde hizalayabiliriz. Bir DN dizi parçası nesilden nesile geçerken bazı durumlarda değişikliklere (mutasyonlara) uğramaktadır. En basit mutasyonlar dizi parçasındaki bir nükleotidin yerine başka bir nükleotidin gelmesi (substitution), dizi parçasından bir nükleotidin silinmesi (deletion) veya di i parçasına nükleotid dizi ükl id girmesidir i idi (insertion). (i i ) Fonksiyon tahmini Veritabanı arama en bulma Yapılan karşılaştırmalarda insersiyon (insertion) veya delesyon (deletion) olayını anlatmak için indel denen işareti kullanılmaktadır. Bir tane veya yanyana olan çizgilere (insersiyonlara, delesyonlara) gedik (gap) denir.

3.5.22 Homoloji: Homolog iki gen, yüksek seviyede dizilim Orthologous enler: ortak bir atadan geldikleri benzerliğine ve özdeşliğine sahiptirler, bu paylaşım ile dizilimler aynı soydan geldikleri hipotezini de desteklemektedirler. desteklemektedirler Dizilim homolojisi aynı zamanda ortak işlev göstergesi de olabilmektedir. düşünülen, benzer bir fonksiyonu olabilen, farklı türlere ait homolog diziler. Paralogous P l l tü i i d enler: ynı tür içinde gen duplikasyonu d lik sonucu oluşmuş homolog diziler. Protein Domains: Bir proteinin bağımsız olarak katlanabildiği ve çalışılabildiği kabul edilen parçası. İki dizi parçası tüm olarak (global) veya bazı kısımları yerel (local) olarak hizalanabilir. Hizalamanın gediksiz (ungapped) yapılması istenebilir veya gediklere müsaade edilebilir. İki dizi parçasının veya ikiden çok dizi parçasının İki di i ikid k di i hizalanması söz konusu olabilir. DN dizileri veya protein dizilerinin hizalanması söz konusu olabilir. Dizi hizalamasındaki mantık DN veya protein dizisi açısından fark etmemektedir. hizalamalarda her dizideki her harfin hizalanması amaçlanır. Sorgu kümesindeki diziler birbirine benzer ve yaklaşık aynı uzunlukta olursa global hizalamalar en yararlı olur Benzer kısa dizi motiflerinin tespitinde lokal hizalamalar kullanılır Dizi hizalaması için kullanılan hesaplamalı yöntemler genelde iki gruba ayrılır: global optimizasyon ve yerel optimizasyon. lobal hizalamanın bulunması bir global optimizasyon çeşididir ve elde edilecek hizalamanın, sorgulanan dizilerin tamamını kapsamaya "zorlar". k " l " Buna karşın, yerel hizalamalar genelde birbirinden çok farklılık gösteren uzun dizilerde benzer bölgeleri tespit eder. Çoğu zaman yerel hizalamalar tercih edilir ama bunların bulunması daha zor olabilir. lobal İkili hizalama yöntemleri, iki sorgu dizisinin birbiriyle en iyi uyuşan parçalarının (lokal veya global) hizalamasını bulmakta kullanılır.!! Eğer diziler yeterince birbirine benziyorsa lokal ve global hizalama sonuçları arasında bir fark olmaz. 2

3.5.22 Nokta Matris Yöntemleri Dinamik Programlama Sözcük Yöntemleri Çoklu dizi hizalaması ikiden daha fazla dizi içermesiyle ikili hizalamanın bir uzantısı sayılır. Çoklu dizileme yöntemleri sorgu kümesindeki tüm dizileri hizalamaya çalışır. Çoklu hizalamalar çoğu zaman birbiriyle evrimsel ilişkisi olduğu hipotez edilen bir grup dizideki korunmuş bölgeleri tespit etmek için kullanılır. Bu tür hizalamalar ayrıca filogenetik ağaç inşa ederek evrimsel bir ili ki i ortaya koymak ilişkiyi k k için i i kullanılır. k ll l Böylesi Bö l i korunmuş k di il diziler, yapısal ve mekanistik bilgilerle beraber kullanılarak enzimlerin katalitik aktif bölgesinin yerini bulmaya yarar. Çoklu dizi hizalamaların üretimi bakımdan zordur ve bu problemin çoğu formülasyonu NP tam kombinatoryal optimizasyon problemlerine dönüşür. Buna rağmen, bu hizalamaların biyoinformatikteki faydaları nedeniyle 3 veya daha fazla dizinin hizalanmasını sağlıyan çeşitli yöntemler geliştirilmiştir. Elde edilen çoklu dizi hizalamasından homoloji olduğu çıkarımı yapılabilir ve filogenetik analiz ile dizilerin evrimsel kökenleri değerlendirilebilir. Hizalamanın sağdaki resimdeki gibi gösterimiyle noktasal mutasyonlar, hizalamadaki sütunlardan birinde farklı bir harf ve delesyonlar ise bi h f olarak, l k ensersiyon i d l l i hizalamadaki satırlardan bir veya daha fazlasında tire şeklinde beliren eklemeler şeklinde mutasyon olayları görülebilir. Protein bölgelerinde, ikincil veya üçüncül yapılarda ve hatta bireysel amino asit veya nükleotitlerin dizi korunumunu değerlendirmek için çoklu dizi hizalamaları sıkça kullanılır. Milyonlarca nükleotidin depolanması ve organizasyonu için veri tabanlarının oluşturulması, araştırıcıların bu bilgilere ulaşabilmeleri ve yeni veriler girebilmeleri için ilk aşamadır. en bankası (enbank), vrupa Moleküler Biyoloji Laboratuvarı (EMBL) DN Japonya veri tabanıdır (DDBJ) 3

3.5.22 Bunlardan birincisi; yazarlar/diziyi veritabanına ilk işleyenler, kaynak gösterimleri, biyolojik atıflar ve dizinin kendisiyle; intronlar, eksonlar, başlangıç ve bitiş kodonları vb bilgiyi içeren bir tablodan oluşan tam bilgi formatıdır. İkincisi ise; hızlı benzerlik araştırmaları için kullanılan ve sadece diziyi içeren FS formatıdır. ccession (ulaşma) numaraları, herbir diziyi belirleyen özgün kimliklerdir ve dizi veritabanına ilk kez girildiğinde verilir. ccession number (enbank): Bir dizi enbank a kaydedildiği zaman bu kayıt için verilen yada kayda özel kimlik numarasıdır. Bir büyük harf ve ardından gelen 5 rakam veya 2 büyük harf ve 6 rakamdan oluşur. ccession number (RefSeq): Bütün bir RefSeq dizisine atanmış kimlik numarasıdır. Sırasıyla iki büyük harf, bir alt çizgi (_) ve 6 rakamdan oluşur (N_23456). * N_23456 birleştirilmiş kontigler * NM_23456 mrn lar (mrn dan oluşturulmuş cdn lar) * NP_23456 proteinler * N_23456 kromozomlar NBI lt Veri abanları PubMed PubMed, NBI bunyesinde bulunan, yaklasık 2 milyon atıflık biyomedikal literaturubarındıran, NBI ın makale, kitap vb. ile ilgili bilgileri barındırdığı alt veri tabanıdır. y g g, PubMedlinkinden,, anahtar kelimeye gore bilimsel dergi, makale, kitap vb.aramalar yapılabilmektedir. Dahası, NBI da yapılan ozgun aramalarda ve cıkan sonuclarda NBI, PubMed linkineerisim sağlayan bağlantıları sunmaktadır. Ornek vermemiz gerekirse, NBI bunyesinde gen arama islemi yapılırken, NBI ın sağladığı bağlantılarla, kolay bir sekilde ilgili gen ile ilgiliyayınlara ulasılması mumkundur. OMIM (Online Mendelian Inheritance in Man) OMIM bilinen insan genleri ve bu genlerin ilişkilendirildiği hastalık fenotip bilgisini barındıran NBI alt lt verii tabanıdır. t b d S kl kl güncellenmektedir. Sıklıkla ü ll kt di İnsan genleri ve bu genlerin ilişkilendirildiği hastalıklar, hastalıkların özellikleri ve bu hastalıkların moleküler mekanizmaları ile ilgili birçok özet bilgiyi ve ilgili referansları barındırır. Nucleotide (Nukleotit Veri abanı) Nükleotid veri tabanı enbank, Refseq, P ve PDB gibi çeşitli kaynaklardan toplanmış ve düzenlenmiş, DN ve RN dizi bilgilerini barındıran veri tabanıdır. Bu amaçla genom, gen, transkript dizi bilgisini barındırır. SS Bolumu(enome Survey Sequence) Bu bolümde barındırılan diziler, ES lere benzemektedir. SS dizileri, karakterize edilmemiş, kısa parçalar halinde olan, genomik dil i k l h li d l ik DN parçalarının dizi bilgilerini DN l di i bil il i i belirtmektedir. Protein İlgili gen ürünlerinin, ifade ettiği proteinlerin dizi bilgisini belirten bolumdur. Unigene Unigene bolumu, ilgili genlerin ve ifade edilen psueodogenlerin (yalancı genler) ürünlerini, ifade edildikleri gen ismi altında toplayan bolumdur. 4

3.5.22 RefSeq Veri tabanlarında birçok dizi birden fazla kezbelirtilmiş ve gösterilmiştir. Sekans bilgileri için gereksiz fazlalığı olan gösterimleri engellemek ve bu belirtimleri düzenlemek icin NBI, RefSeq ikincil alt veri tabanını oluşturmuştur. Bu amaçla RefSeq bolumu, genomik DN, RN ve protein dizi bilgileri için, geniş kapsamlı, düzenlenmiş ve gerekli olan sekans bilgilerini tekrar duzenlemistir. Bir baska deyisle, Refseq bolumu, her bir DN, RN ve protein dizisi için doğruluğu kanıtlanmış ve kabul edilmiş sekans bilgilerini içerir. BLS uygulaması sorgulatılmak istenen protein veya nükleik asit dizisini, benzerlik kıstaslarına ve kendi içinde barındırdığı algoritmaya göre, veri tabanı içinde arayan bir dizi karşılaştırma programıdır. BLS, sorgulatılan diziyi veri tabanı içindeki diğer dizilerle karşılaştırabildiği gibi kullanıcı tanımlı dizileri ikili olarak da karşılaştırabilmektedir. Bu yazılım verilen bir nükleotid ve protein dizisini kullanarak ilgili veri tabanlarını tarar ve olası homolog genleri bulurlar 5

3.5.22 BLS arama sonuçlarının karşılaştırılmasında önemli olan bazı parametreler vardır. Bu parametrelere ve bu parametreler arasındaki ilişki incelenerek, sonuçların güvenirliliği veya sorulan bilimsel soruya göre, göre arama sonuçlarını seçmek mümkündür. BLS arama sonuçlarının karşılaştırılmasında kullanılan değişkenler; lobal hizalama yapan Needleman Wunsch algoritması ile yerel hizalama yapan Smith Waterman algoritması gibi yöntemler iki proteinin benzerlik skorunun hesaplanmasında kullanılmaktadır. kullanılmaktadır İkisi de dinamik programlama temeline dayanmaktadır. Bu tip yöntemlerin anahtar parçası skor matrisi adı verilen matrislerdir. Maksimum Skor (Maximum Score) oplam Skor (otal Score) Sorgulama Kapsamı (Query overage) E Değeri (E Value) Maksimum Benzerlik (Maximum Identity) ipik kullanımda, protein hizalamalarında amino asit uyuşma veya uyuşmamalarına bir skor verebilmek için bir substitusyon matrisi; bir dizideki amino asitin öbür dizide bir boşlukla eşleştirilmesi için de bir boşluk ceza değeri kullanılır. DN ve RN hizalamaları için de bir skor matrisi k ll kullanabilir bili ama pratikte ik basitçe b i pozitif i if bir bi uyuşma skoru, k negatif bir uyuşmama skoru ve negatif bir boşluk cezası verilir. Dinamik programlama yöntemi belli bir skorlama fonksiyonu için optimal hizalamayı bulmayı garantiler. Dinamik programlara ikiden çok diziye de genelleyebilirse de, çok sayıda dizi veya çok uzun dizilerde kullanılamayacak derecede yavaş çalışır. 6

3.5.22 3 adımda gerçekleşir ; Match Score = + Mismatch Score = Initialization ap penalty = Scoring Substitution Matrix S b tit ti M t i race back (lignment) reate a matrix with X + Rows and Y + olumns Final Scoring Matrix he st row and the st column of the score matrix are filled as multiple of gap penalty Final race back 3 3 Initialization Scoring 3 race back (lignment) 4 2 Best lignment: _ 7

3.5.22 Example: Match Score = + he calculation for the cell (2, 2): scorediag = (i, j) + S(I, j) = + = scoreup (i, j) + g + scoreup = (i, j) + g = + = scoreleft = (i, j) + g = + = Mismatch Score = ap penalty = Substitution Matrix S b tit ti M t i Final race back Final Scoring Matrix 2 2 3 3 Note: It is not mandatory that the last cell has the maximum alignment score! Best lignment: 8

3.5.22 Nuran Şahin Biyoloji Öğretmeni (tanımlar) Kitaplar : enetik S. Yüce,. Bilgen, İ. Demir Bioinformatics Bi i f i enes, Proteins P i & omputers.. Orengo, D.. Jones, J.M. hornton Bionformatics for eneticists Michael R. Barnes Bioinformatics Basics pplication in Biological Science and Medicine Hooman H. Rashidi, Lukas K. Buehler İnternet : www.ebi.ac.uk www.ncbi.nlm.nih.gov http://biyoinformatik.wordpress.com http://iys.inonu.edu.tr/ http://tr.wikipedia.org/ http://www.acikders.org.tr/ Makaleler: Kuvarsa Bağlanabilen Peptitler için Evrimsel Strateji ile Skor Matris Optimizasyonu(Barış Şenliol, Zehra Çataltepe İÜ) Neden Biyoinformatik?(Rengün Çetin LY*) Special opics omputational Biology (Pooja nshul Saxena) enetik Kodların Uluslararası Paylaşımı(lper kçalı) 9