03.05.2012. Homoloji: Homolog iki gen, yüksek seviyede dizilim

3.5.22 Nezahat Karahan DN, RN veya Protein dizilerinin düzenlenerek benzer bölgelerinin tespit edilmesidir. Biyoinformatikte birçok inceleme, iki ya da daha çok sayıda DN veya protein dizisinin karşılaştırılmasına d DN t i di i i i k l t l dayanmaktadır. DN: nükleotidlerin uzun bir dizisi Protein: aminoasitlerin uzun bir dizisi Dizi karşılaştırmasının temelinde dizi hizalama kavramı yatmaktadır. Örneğin elimizde ve gibi iki dizi parçası olsun; bu dizileri Karşılaştırması yapılan dizilerin benzerliğini ölçmek, türlerin karşılaştırılması, gen ailelerinin belirlenmesi ve akrabalık derecelerinin tespiti, ortak ata yönünden k b l k d l i i i i k ö ü d inceleme veya veya Şeklinde hizalayabiliriz. Bir DN dizi parçası nesilden nesile geçerken bazı durumlarda değişikliklere (mutasyonlara) uğramaktadır. En basit mutasyonlar dizi parçasındaki bir nükleotidin yerine başka bir nükleotidin gelmesi (substitution), dizi parçasından bir nükleotidin silinmesi (deletion) veya di i parçasına nükleotid dizi ükl id girmesidir i idi (insertion). (i i ) Fonksiyon tahmini Veritabanı arama en bulma Yapılan karşılaştırmalarda insersiyon (insertion) veya delesyon (deletion) olayını anlatmak için indel denen işareti kullanılmaktadır. Bir tane veya yanyana olan çizgilere (insersiyonlara, delesyonlara) gedik (gap) denir.

3.5.22 Homoloji: Homolog iki gen, yüksek seviyede dizilim Orthologous enler: ortak bir atadan geldikleri benzerliğine ve özdeşliğine sahiptirler, bu paylaşım ile dizilimler aynı soydan geldikleri hipotezini de desteklemektedirler. desteklemektedirler Dizilim homolojisi aynı zamanda ortak işlev göstergesi de olabilmektedir. düşünülen, benzer bir fonksiyonu olabilen, farklı türlere ait homolog diziler. Paralogous P l l tü i i d enler: ynı tür içinde gen duplikasyonu d lik sonucu oluşmuş homolog diziler. Protein Domains: Bir proteinin bağımsız olarak katlanabildiği ve çalışılabildiği kabul edilen parçası. İki dizi parçası tüm olarak (global) veya bazı kısımları yerel (local) olarak hizalanabilir. Hizalamanın gediksiz (ungapped) yapılması istenebilir veya gediklere müsaade edilebilir. İki dizi parçasının veya ikiden çok dizi parçasının İki di i ikid k di i hizalanması söz konusu olabilir. DN dizileri veya protein dizilerinin hizalanması söz konusu olabilir. Dizi hizalamasındaki mantık DN veya protein dizisi açısından fark etmemektedir. hizalamalarda her dizideki her harfin hizalanması amaçlanır. Sorgu kümesindeki diziler birbirine benzer ve yaklaşık aynı uzunlukta olursa global hizalamalar en yararlı olur Benzer kısa dizi motiflerinin tespitinde lokal hizalamalar kullanılır Dizi hizalaması için kullanılan hesaplamalı yöntemler genelde iki gruba ayrılır: global optimizasyon ve yerel optimizasyon. lobal hizalamanın bulunması bir global optimizasyon çeşididir ve elde edilecek hizalamanın, sorgulanan dizilerin tamamını kapsamaya "zorlar". k " l " Buna karşın, yerel hizalamalar genelde birbirinden çok farklılık gösteren uzun dizilerde benzer bölgeleri tespit eder. Çoğu zaman yerel hizalamalar tercih edilir ama bunların bulunması daha zor olabilir. lobal İkili hizalama yöntemleri, iki sorgu dizisinin birbiriyle en iyi uyuşan parçalarının (lokal veya global) hizalamasını bulmakta kullanılır.!! Eğer diziler yeterince birbirine benziyorsa lokal ve global hizalama sonuçları arasında bir fark olmaz. 2

3.5.22 Nokta Matris Yöntemleri Dinamik Programlama Sözcük Yöntemleri Çoklu dizi hizalaması ikiden daha fazla dizi içermesiyle ikili hizalamanın bir uzantısı sayılır. Çoklu dizileme yöntemleri sorgu kümesindeki tüm dizileri hizalamaya çalışır. Çoklu hizalamalar çoğu zaman birbiriyle evrimsel ilişkisi olduğu hipotez edilen bir grup dizideki korunmuş bölgeleri tespit etmek için kullanılır. Bu tür hizalamalar ayrıca filogenetik ağaç inşa ederek evrimsel bir ili ki i ortaya koymak ilişkiyi k k için i i kullanılır. k ll l Böylesi Bö l i korunmuş k di il diziler, yapısal ve mekanistik bilgilerle beraber kullanılarak enzimlerin katalitik aktif bölgesinin yerini bulmaya yarar. Çoklu dizi hizalamaların üretimi bakımdan zordur ve bu problemin çoğu formülasyonu NP tam kombinatoryal optimizasyon problemlerine dönüşür. Buna rağmen, bu hizalamaların biyoinformatikteki faydaları nedeniyle 3 veya daha fazla dizinin hizalanmasını sağlıyan çeşitli yöntemler geliştirilmiştir. Elde edilen çoklu dizi hizalamasından homoloji olduğu çıkarımı yapılabilir ve filogenetik analiz ile dizilerin evrimsel kökenleri değerlendirilebilir. Hizalamanın sağdaki resimdeki gibi gösterimiyle noktasal mutasyonlar, hizalamadaki sütunlardan birinde farklı bir harf ve delesyonlar ise bi h f olarak, l k ensersiyon i d l l i hizalamadaki satırlardan bir veya daha fazlasında tire şeklinde beliren eklemeler şeklinde mutasyon olayları görülebilir. Protein bölgelerinde, ikincil veya üçüncül yapılarda ve hatta bireysel amino asit veya nükleotitlerin dizi korunumunu değerlendirmek için çoklu dizi hizalamaları sıkça kullanılır. Milyonlarca nükleotidin depolanması ve organizasyonu için veri tabanlarının oluşturulması, araştırıcıların bu bilgilere ulaşabilmeleri ve yeni veriler girebilmeleri için ilk aşamadır. en bankası (enbank), vrupa Moleküler Biyoloji Laboratuvarı (EMBL) DN Japonya veri tabanıdır (DDBJ) 3

3.5.22 Bunlardan birincisi; yazarlar/diziyi veritabanına ilk işleyenler, kaynak gösterimleri, biyolojik atıflar ve dizinin kendisiyle; intronlar, eksonlar, başlangıç ve bitiş kodonları vb bilgiyi içeren bir tablodan oluşan tam bilgi formatıdır. İkincisi ise; hızlı benzerlik araştırmaları için kullanılan ve sadece diziyi içeren FS formatıdır. ccession (ulaşma) numaraları, herbir diziyi belirleyen özgün kimliklerdir ve dizi veritabanına ilk kez girildiğinde verilir. ccession number (enbank): Bir dizi enbank a kaydedildiği zaman bu kayıt için verilen yada kayda özel kimlik numarasıdır. Bir büyük harf ve ardından gelen 5 rakam veya 2 büyük harf ve 6 rakamdan oluşur. ccession number (RefSeq): Bütün bir RefSeq dizisine atanmış kimlik numarasıdır. Sırasıyla iki büyük harf, bir alt çizgi (_) ve 6 rakamdan oluşur (N_23456). * N_23456 birleştirilmiş kontigler * NM_23456 mrn lar (mrn dan oluşturulmuş cdn lar) * NP_23456 proteinler * N_23456 kromozomlar NBI lt Veri abanları PubMed PubMed, NBI bunyesinde bulunan, yaklasık 2 milyon atıflık biyomedikal literaturubarındıran, NBI ın makale, kitap vb. ile ilgili bilgileri barındırdığı alt veri tabanıdır. y g g, PubMedlinkinden,, anahtar kelimeye gore bilimsel dergi, makale, kitap vb.aramalar yapılabilmektedir. Dahası, NBI da yapılan ozgun aramalarda ve cıkan sonuclarda NBI, PubMed linkineerisim sağlayan bağlantıları sunmaktadır. Ornek vermemiz gerekirse, NBI bunyesinde gen arama islemi yapılırken, NBI ın sağladığı bağlantılarla, kolay bir sekilde ilgili gen ile ilgiliyayınlara ulasılması mumkundur. OMIM (Online Mendelian Inheritance in Man) OMIM bilinen insan genleri ve bu genlerin ilişkilendirildiği hastalık fenotip bilgisini barındıran NBI alt lt verii tabanıdır. t b d S kl kl güncellenmektedir. Sıklıkla ü ll kt di İnsan genleri ve bu genlerin ilişkilendirildiği hastalıklar, hastalıkların özellikleri ve bu hastalıkların moleküler mekanizmaları ile ilgili birçok özet bilgiyi ve ilgili referansları barındırır. Nucleotide (Nukleotit Veri abanı) Nükleotid veri tabanı enbank, Refseq, P ve PDB gibi çeşitli kaynaklardan toplanmış ve düzenlenmiş, DN ve RN dizi bilgilerini barındıran veri tabanıdır. Bu amaçla genom, gen, transkript dizi bilgisini barındırır. SS Bolumu(enome Survey Sequence) Bu bolümde barındırılan diziler, ES lere benzemektedir. SS dizileri, karakterize edilmemiş, kısa parçalar halinde olan, genomik dil i k l h li d l ik DN parçalarının dizi bilgilerini DN l di i bil il i i belirtmektedir. Protein İlgili gen ürünlerinin, ifade ettiği proteinlerin dizi bilgisini belirten bolumdur. Unigene Unigene bolumu, ilgili genlerin ve ifade edilen psueodogenlerin (yalancı genler) ürünlerini, ifade edildikleri gen ismi altında toplayan bolumdur. 4

3.5.22 RefSeq Veri tabanlarında birçok dizi birden fazla kezbelirtilmiş ve gösterilmiştir. Sekans bilgileri için gereksiz fazlalığı olan gösterimleri engellemek ve bu belirtimleri düzenlemek icin NBI, RefSeq ikincil alt veri tabanını oluşturmuştur. Bu amaçla RefSeq bolumu, genomik DN, RN ve protein dizi bilgileri için, geniş kapsamlı, düzenlenmiş ve gerekli olan sekans bilgilerini tekrar duzenlemistir. Bir baska deyisle, Refseq bolumu, her bir DN, RN ve protein dizisi için doğruluğu kanıtlanmış ve kabul edilmiş sekans bilgilerini içerir. BLS uygulaması sorgulatılmak istenen protein veya nükleik asit dizisini, benzerlik kıstaslarına ve kendi içinde barındırdığı algoritmaya göre, veri tabanı içinde arayan bir dizi karşılaştırma programıdır. BLS, sorgulatılan diziyi veri tabanı içindeki diğer dizilerle karşılaştırabildiği gibi kullanıcı tanımlı dizileri ikili olarak da karşılaştırabilmektedir. Bu yazılım verilen bir nükleotid ve protein dizisini kullanarak ilgili veri tabanlarını tarar ve olası homolog genleri bulurlar 5

3.5.22 BLS arama sonuçlarının karşılaştırılmasında önemli olan bazı parametreler vardır. Bu parametrelere ve bu parametreler arasındaki ilişki incelenerek, sonuçların güvenirliliği veya sorulan bilimsel soruya göre, göre arama sonuçlarını seçmek mümkündür. BLS arama sonuçlarının karşılaştırılmasında kullanılan değişkenler; lobal hizalama yapan Needleman Wunsch algoritması ile yerel hizalama yapan Smith Waterman algoritması gibi yöntemler iki proteinin benzerlik skorunun hesaplanmasında kullanılmaktadır. kullanılmaktadır İkisi de dinamik programlama temeline dayanmaktadır. Bu tip yöntemlerin anahtar parçası skor matrisi adı verilen matrislerdir. Maksimum Skor (Maximum Score) oplam Skor (otal Score) Sorgulama Kapsamı (Query overage) E Değeri (E Value) Maksimum Benzerlik (Maximum Identity) ipik kullanımda, protein hizalamalarında amino asit uyuşma veya uyuşmamalarına bir skor verebilmek için bir substitusyon matrisi; bir dizideki amino asitin öbür dizide bir boşlukla eşleştirilmesi için de bir boşluk ceza değeri kullanılır. DN ve RN hizalamaları için de bir skor matrisi k ll kullanabilir bili ama pratikte ik basitçe b i pozitif i if bir bi uyuşma skoru, k negatif bir uyuşmama skoru ve negatif bir boşluk cezası verilir. Dinamik programlama yöntemi belli bir skorlama fonksiyonu için optimal hizalamayı bulmayı garantiler. Dinamik programlara ikiden çok diziye de genelleyebilirse de, çok sayıda dizi veya çok uzun dizilerde kullanılamayacak derecede yavaş çalışır. 6

3.5.22 3 adımda gerçekleşir ; Match Score = + Mismatch Score = Initialization ap penalty = Scoring Substitution Matrix S b tit ti M t i race back (lignment) reate a matrix with X + Rows and Y + olumns Final Scoring Matrix he st row and the st column of the score matrix are filled as multiple of gap penalty Final race back 3 3 Initialization Scoring 3 race back (lignment) 4 2 Best lignment: _ 7

3.5.22 Example: Match Score = + he calculation for the cell (2, 2): scorediag = (i, j) + S(I, j) = + = scoreup (i, j) + g + scoreup = (i, j) + g = + = scoreleft = (i, j) + g = + = Mismatch Score = ap penalty = Substitution Matrix S b tit ti M t i Final race back Final Scoring Matrix 2 2 3 3 Note: It is not mandatory that the last cell has the maximum alignment score! Best lignment: 8

3.5.22 Nuran Şahin Biyoloji Öğretmeni (tanımlar) Kitaplar : enetik S. Yüce,. Bilgen, İ. Demir Bioinformatics Bi i f i enes, Proteins P i & omputers.. Orengo, D.. Jones, J.M. hornton Bionformatics for eneticists Michael R. Barnes Bioinformatics Basics pplication in Biological Science and Medicine Hooman H. Rashidi, Lukas K. Buehler İnternet : www.ebi.ac.uk www.ncbi.nlm.nih.gov http://biyoinformatik.wordpress.com http://iys.inonu.edu.tr/ http://tr.wikipedia.org/ http://www.acikders.org.tr/ Makaleler: Kuvarsa Bağlanabilen Peptitler için Evrimsel Strateji ile Skor Matris Optimizasyonu(Barış Şenliol, Zehra Çataltepe İÜ) Neden Biyoinformatik?(Rengün Çetin LY*) Special opics omputational Biology (Pooja nshul Saxena) enetik Kodların Uluslararası Paylaşımı(lper kçalı) 9