Biyoenformatik te Dizi Kıyaslaması Editör Jens Allmer Yardımcı Editörler Canan Has Şule Yılmaz
Biyoenformatik te Dizi Hizalamaları Editör: Jens Allmer Yardımcı Editörler: Canan Has, Şule Yılmaz Kapak Tasarımı: Nuray Işık Basım Tarihi: Temmuz 2012; Birinci Baskı Ayrıntılı bilgi için http://www.biolnk.com/habf/
Açalya ma ve Lukas Aren ime JA Bana tüm bildiklerimi öğreten herkese ve sevgili aileme CH Biricik aileme ŞY
İÇİNDEKİLER 1 İthaf 2 Önsöz BÖLÜM I: Dizi Kıyaslama 3 Motif Eşleşmesi 4 Dizi Kıyaslama Yöntemleri 5 Dizilerin Bütünsel ve Yerel Hizalanması 6 Needleman-Wunsch ve Smith-Waterman Algoritmaları 7 Needleman-Wunsch Algoritması 8 Smith-Waterman Algoritması 9 Çoklu Dizi Hizalaması BÖLÜM II: Tahminleme ve İstatistik 10 Skor Matrisleri 11 Dizi Eşleştirme İstatistiği 12 Neden Sezgisel Yöntemlere İhtiyaç Duyuyoruz? 13 BLAST ve FASTA Algoritmaları BÖLÜM III: BLAST 14 BLAST Algoritması 15 BLAST Kullanım Kılavuzu 16 Komut Satırları ile BLAST 17 BLAST Sonuç Analiz Programı 18 Sonuçların Değerlendirilmesi ve Sorunların Çözümlenmesi BÖLÜM IV: FASTA 19 FASTA Algoritması 20 FASTA Uygulaması ve Erişimi 21 Adım Adım FASTA 1
BÖLÜM V: Karşılaştırma 22 BLAST: Güçlü ve Zayıf Yönleri 23 FASTA: Güçlü vezayıf Yönleri 24 FASTA ile BLAST ın Duyarlılık ve Doğruluk Açısından Karşılaştırılması BÖLÜM VI: Ek 25 Dosya Formatları 26 Biyolojik Veri Tabanları ve Dizi Depoları 27 BLAST ve FASTA yı Destekleyen Veritabanları ve Veri Havuzları 28 Sözlük 2
1 İTHAF Yoğun emek isteyen bir çalışma olan biyoenformatik kitabı yazım sürecinde birçok insan yer aldı ve herkese iş bölümü yapmak zordu. Birçok bölüm, biyoenformatik veya hesaplamalı biyoloji derslerimi alan öğrenciler tarafından yazıldı. Başlangıçta amaç onları bilimsel yazmaya alıştırmaktı ve böylece yazım süreci benim tarafımdan olduğu kadar öğrencilerin kendileri tarafından da yapılan bir seri gözden geçirme süreciyle bir dönem projesi olarak tasarlandı. Yazılan bazı yazıların çok başarılı olduğun fark etmemle en iyileri bir araya getirerek bir biyoenformatik kitabı oluşturmaya karar verdim. Kitabın oluşmasında yer alan öğrencilerime özellikle bu projeye emek verdikleri için teşekkür ediyorum. Ayrıca kitapta yer almamış fakat çaba sarfetmiş öğrencilerime de şükranlarımı sunuyorum. Biyoenformatik dersimi alan grup Moleküler Biyoloji ve Genetik Bölümü ve Bilgisayar Mühendisliği Bölümü lisans 3. sınıf öğrencilerinden oluşmuştu. Her iki grup da dersin bitmesinden sonra kitabın son halinin oluşturulmasında katkı sağladılar. 3
Şekil 1: MBG305 - Bioinformatik dersi, grup fotoğrafı, Ocak 2010. Hesaplamalı Biyoloji dersimi alan grup ise Moleküler Biyoloji ve Genetik Bölümü lisans 4. sınıf ve yüksek lisans öğrencilerinden oluşmuştu. Bu gruptaki öğrencilerimin hepsi kitabın son halinde yer alan bölümleri yazmışlardır. Bu dersleri daha önceki akademik dönemlerde alan Moleküler Biyoloji ve Genetik Bölümü nden mezun öğrencilerimden biri olan Elif Hatem Kamber de kitapta bir bölüm yazmıştır. 4
Şekil 2: MBG403 - Hesaplamalı Biyoloji dersi, grup fotoğrafı, Ocak 2010. En önemlisi, bu kitabın birleştirilmesine çok zaman ayıran yüksek lisans öğrencilerim Canan Has, Şule Yılmaz, Belgin Aytun, Mehmet Bekir Kelleci, Mehmet Volkan Çakır a teşekkür etmek istiyorum. Yüksek lisans öğrencilerim kitabı yeniden gözden geçirerek ve düzenleyerek, kitapta yer alan hesaplamaları yeniden yaparak ve benim bölümlerimin çevrilmesinde olduğu kadar kendi bölümlerini yazarak kitap projesinde yer almışlardır. 5
Şekil 3: İYTE - Hesaplamalı biyoloji laboratuvarı grup fotoğrafı, HIBIT, Mayıs 2011. Ayrıca kitap projesinin son düzenlemelerinin ardından yüksek lisans öğrencilerim ilgili basımevleriyle iletişime geçme konusunda bana yardımcı olmuşlardır. Son olarak kitabın son halini yeniden okuyan ve bizim gözden kaçırdığımız noktaları yakalayarak gerekli düzeltmeleri yapan meslektaşlarım Bilge Karaçalı, Çağdaş Son, Ferda Soyer, Hasan Otu, Tolga Can, Tuğkan Tuğlular ve Vilda Purutçuoğlu na teşekkür etmek istiyorum. 6
2 ÖNSÖZ Günümüzde biyoloji; bilişim bilimi, bilgisayar mühendisliği, matematik ve diğer disiplinler ile ayrılmaz bir bütün olmuştur. Bu bütünlük bir çok önemli olanak sağlamasına rağmen, bazı zorlukları da beraberinde getirmiştir. Bu kitaptan yararlanılarak, konu ile ilgili ancak bir bakış açısı elde edilebilir. Kitap, bilgisayar mühendislerinden ziyade ağırlıklı olarak biyologlar tarafından yazılmıştır. Ayrıca, algoritma uygulamaları ve biyoloji ile ilgilenenler için de yararlı olacaktır. Günümüzde, laboratuvar deneylerine ek olarak, bilgisayar üzerinde saatlerce süren çalışmaların yapıldığı BLAST ve FASTA gibi araçlar olmadan bir çok biyolojik araştırmaların sonuçlanması mümkün olmamamaktadır. Ancak, ne yazık ki, algoritmaların anlaşılması çoğu zaman yetersiz olduğu için sonuçların yorumlanması genellikle hatalı olabilmektedir. Hatalar bir çok makale ve kitapta bulunabilir. Açıkçası, bu konu ile ilgili Türkçe herhangi bir kitap bulunmamaktadır. Böyle bir ihtiyacın bilincinde olduğumuz için, bu alandaki eksikliği gidermek amacı ile işbirliğine dayanan bir çalışma başlattık. Bu kitap, ağırlıklı olarak öğrenciler tarafından öğrenciler için yazılmıştır. Yüksek lisans, Biyoenformatik ve Hesaplamalı Biyoloji derslerini almış olan lisans öğrencilerim kitapta yer alan bölümleri yazmıştır. Birkaç defa gözden geçirme sonrası Türkçe ye çevrilmiştir. Ardından tekrar bir dizi düzeltme yapılmıştır. Elinizdeki kitap bu çalışmanın mevcut son halini yansıtmaktadır. Umuyoruz ki, sizden gelen eleştiriler, ilave bilgi isteğiniz ve yeni 7
fikirlerinize dayalı olarak kitabın gelecek sürümlerini geliştirebiliriz. Bilginin, anlamayı gerektirdiğine inanıyoruz. Dolayısıyla bu kitap ile, temel konulardan olan motif eşleşmesi, dizi hizalaması ve sezgisel dizi karşılaştırmalarına ışık tutmayı amaçladık. Bu size oldukça teorik gelebilir fakat prensiplerini anlamadan algoritmaları kullanmaya çalışmak araştırmalarınızı sınırlar. Ayrıca, pratik bilgilendirici kılavuzların yer aldığı diğer bölümlerde de teori uygulanmıştır. Ana odak, çok sık kullanılan iki algoritma - BLAST ve FASTA olmasına rağmen diğer bazı alternatif algoritmalar da tanıtılmıştır. Bu kitapta, laboratuvar deneyimi olan ve araştırmalarına yön gösterecek yararlı bilişimsel metotları anlamanın önemine inanan biyoloji öğrencileri hedef alınmıştır. Size fikir vermesi amacı ile, İzmir Yüksek Teknoloji Enstitüsünde Biyoenformatik dersi üçüncü yılın birinci dönemi ve devamı olan Hesaplamalı Biyoloji dersi dördüncü sınıfın ikinci döneminde verilmektedir. Bu kitaptan mümkün olduğunca fayda sağlamanız için, slaytlar, ödevler ve dönem projelerini içeren internet sitesinden de yararlanılabilir. BÖLÜM VE KONU ORGANİZASYONU Kitap, dizi kıyaslamanın çeşitli ilgi çekici yönleri hakkında bilgi veren altı bölümden oluşmaktadır. İlk bölümde, iki optimal algoritmayı içeren bir takım dizi kıyaslama yöntemleri tanıtılmıştır (Konu 6 ve 7). İkinci konuda belirtildiği gibi, herhangi iki dizi birbirleriyle yaklaşık motif eşleşme yöntemi kullanılarak eşleştirilebilir. İkinci bölümde, yavaş dizi kıyaslamalarını hızlandırabilecek sezgiye dayalı yöntemler ve anlamlı sonuçlar ile hatalı olanları ayırabilecek istatistikler tanıtılmıştır. Sonraki iki bölümde, önce BLAST sonra da FASTA, hem teorik 8
hem de pratik olarak açıklanmıştır. Bu iki algoritmanın kıyaslanması ise kitabın son bölümünde yer almıştır. Son olarak, önceki bölümlerde yer alan bilgiler ile alakalı konulara kısa bir bakış açısı sağlamak için ek bir bölüm oluşturulmuştur. Bu kitap 20 ders saati olarak tasarlanmıştır; fakat daha iyi anlaşılması için hem ilave okumalar hem de ödevler içermektedir. BÖLÜM I: DİZİ KIYASLAMA Tam motif eşleşmesinden başlayıp yaklaşık motif eşleşmesine kadar olan dizilerin kıyaslaması bölümüne giriş ilk iki konuda anlatılmıştır (Konu 3, 4). Takip eden iki konuda (Konu 5, 6) ise dizi hizalama tanıtılmıştır. Konu 6 ve 7 de yer alan iki optimal dizi kıyaslama algoritmaları, hizalama stratejilerine göre açıklanmıştır. Böylece, bu bölüm Konu 3 ten 9 a kadar sırası ile okunmalıdır (bilgisayar mühendisleri ilk iki konuyu atlayabilir). BÖLÜM II: TAHMİNLEME VE İSTATİSTİK İlk bölümde (Konu 10), Konu 6 ve 7 de akla gelebilecek soruları açıklığa kavuşturacak olan, skor matrisleri tanıtılmıştır. Konu 11 de anlamlı ve hatalı olan sonuçları ayırt edebilecek gerekli olan bazı istatistikler açıklanmıştır. Konu 12 de, sezgisel yöntemlerin neden kullanılması gerektiği açıklanmış ve yaygın olarak kullanılan iki algoritma - BLAST ve FASTA tanıtılmıştır. Bu iki algoritma, ilerleyen iki bölümde ayrıntısı ile anlatılmıştır. BÖLÜM III: BLAST Basic Local Alignment Search Tool (BLAST), biyoenformatikte yer alan en dikkat çeken algoritmalardan biridir ve biyolojide sık sık kullanılır. 9
Konu 14 te algoritma açıklanmış, sonra da kullanım kılavuzu bunu takip etmiştir. Konu 15 te online sunuculara odaklanılmış ve Konu 16 da BLAST ın yerel kullanımı tanıtılmıştır. Son iki konuda (Konu 17 ve 18) BLAST sonuçlarının görüntülenmesi ve aynı zamanda sorunların çözümlenmesi hakkında bilgi verilmiştir. BÖLÜM IV: FASTA FASTA biyolojide dizi kıyaslamada en yaygın olarak kullanılan ilk başarılı algoritmadır. Bu bölümün ilk konusunda (Konu 19), FASTA algoritması analiz edilmiştir. Konu 20 ve 21 de FASTA nın bazı versiyonları açıklanmış ve FASTA kullanımını açıklayan eğitsel bilgi verilmiştir. BÖLÜM V: KARŞILAŞTIRMA İki başarılı dizi kıyaslama algoritmaları olan BLAST ve FASTA nın önceki iki bölümde açıklanmasından sonra, bu bölümde bunlar karşılaştırılmıştır. Konu 22 de BLAST ın, Konu 23 te ise FASTA nın güçlü ve zayıf yanları analiz edilmiştir. Son olarak Konu 24 te, BLAST ve FASTA duyarlılık ve doğruluk açısından kıyaslanmıştır. BÖLÜM VI: EK Dizi kıyaslamada iki önemli konu olan durum dizilerinin yeniden gösterilmesi (Konu 26) ve ulaşılabilirliği (Konu 27) ile BLAST ve FASTA yı destekleyen veritabanları ve veri havuzları hakkında bilgi (Konu 28) kitabın genel sıralamasına uymadığı için bunlara en sonda yer verilmiştir. İNTERNET SİTESİ Kitap ile ilgili internet sitesinde, konularla ilgili temeli geliştirmek için bazı slaytlar yer almaktadır. 10
Bu slaytlar, daha fazla açıklamalar için sürekli güncellenecektir. Ödevler, dönem projeleri ve ilave pratik uygulamalar için bazı fikirler de mevcuttur. http://www.biolnk.com/habf/ HABF - Having a BLAST with FASTA (BLAST ile FASTA ya sahip olma) cümlesinin kısaltılmış şeklidir. 11
3 MOTİF EŞLEŞMESİ Jens ALLMER Moleküler Biyoloji ve Genetik Bölümü, İzmir Yüksek Teknoloji Enstitüsü, 35430 Urla, İzmir 3.1 ÖZET Dizilerin ve eldeki bilgilerin sayısının giderek artması sonucu biyolojik veritabanları ve veri havuzları ortaya konulmuştur. Bilgileri yerleştirme ve geri alma süreçleri tam motif eşleşmesi, yaklaşık motif eşleşmesi ve indeksleme metotları gibi çeşitli yollarla çözülebilecek farklı problemlere sahiptir. Bu konuların tümü bu bölümde ortaya konacaktır. Ayrıca tam motif eşleşmesi detaylı olarak tartışılacaktır. 12