BİYOİNFORMATİK: LABORATUARDA SEKANSLARIN TOPLANMASI VE DEPOLANMASI Ayhan YILMAZ
Sunum Taslağı DNA NIN NIN SEKANSLANMASI Genomik Sekanslama Shotgun Sekanslama Eksprese Olan Genlerin cdna Kütüphanelerini Sekanslama DİZİLERİN N VERİTABANLARINA KABULÜ Sekansın n Doğrulu ruluğu DİZİLERİN N BİLGB LGİSAYARDA SAKLANMASI ASCII ve Hexadecimal SEKANS FORMATLARI BİR R SEKANS FORMATINI DİĞD İĞERİNE DÖNÜŞTÜRMEKD READSEQ Sekans Formatları Arasındaki DönüşümüD Sağlar Sekans Formatlarının n Dönüştürülmesi D için i in GCG Programları ÇOKLU SEKANS FORMATLARI BİR R SEKANS VERİTABANINDA BİLGB LGİNİN N SAKLANMASI Veri Tabanı Tipleri Veri Tabanı Erişim im Programı Olan ENTREZ in Kullanımı Spesifik Bir Sekans Elde Etme
Giriş Bu sunum DNA moleküllerinin llerinin sekanslarını toplamada ve bilgisayar dosyalarında depolamada kullanılan lan metotları özetlemektedir. Bir kere bilgisayara girdimi artık k sekanslar çeşitli metotlarla analiz edilebilir. Ayrıca uzun moleküllerin llerin sekansları kısa moleküllerin llerin sekanslarının birleştirilmesiyle kolayca yapılabilir. Birleştirilmi tirilmiş sekanslar DNA kaynağı ( organizma ), gen ismi ve araştırıcısı gibi belirtici özelliklerle beraber bir bilgisayar dosyasında saklanır. Sekans ve aksesuarı ardından bir veritabanına na girilir. Bu yöntem y onları öyle organize eder ki özel olanlar ileride kullanım için in bir veritabanı araştırma rma programı tarafından elde edilebilir. Ne yazık k ki çoğu u sekans analiz programı bir sekans dosyasındaki bilginin özel bir formatta depolanmasına na ihtiyaç duyar. Bu programları kullanmak için i in bu formatların n farkında olmak ve bir formatı diğerine dönüştürebilmek d gerekir.
DNA NIN NIN SEKANSLANMASI Sanger metodu?
Strateji chromosome walking!
Genomik Sekanslama clone by clone sequencing shotgun sequencing
Shotgun Sekanslama Yukarıdaki shotgun sekanslama stratejisi insan genomu gibi tekrar dizileri olan genomlara uygulanabilirmi? Eğer farklı kromozomal bölgelerden türeyen t DNA fragmentleri aynı dizide tekrarlara sahipse onlar overlap ediyorlarmış görünürler. rler. Tamamen yeni bir shotgun yaklaşı şımında Celera Genomics 2 kb ( kısa k ), 10 kb ( orta ) ve BAC veya 100 kb ( uzun ) uzunlukta DNA fragmentlerinin uçlarını sekanslıyor yor. Birçok sayıda okuma daha sonra bilgisayar tarafından birleştiriliyor. Bu metod oldukça a yüksek y derecede tekrarlı bölgelerin çıkarılmasından sonra Drosophila melanogaster in genomunun birleştirilmesinde kullanıld ldı ve ayrıca insan genomunun önemli bir kısmk smının n birleştirilmesinde de kullanıld ldı.
DİZİLERİN N VERİTABANLARINA KABULÜ-1 Araştırıcılar ların n yeni elde ettikleri dizilerini doğrudan Uluslar arası Nükleotid Dizi Veritabanı İşbirli birliğinin inin bir üyesi olan National Center for Biotechnology Information ( NCBI ) ( ki GenBank ı= http://www.ncbi ncbi.nlm.nih.gov yönetir ), Japonyanın DNA veribankası olan DDBJ ( http://www.ddbj ddbj.nig.ac.jp ) veya Avrupa Moleküler ler Biyoloji Laboratuarı olan EMBL / EBI Nükleotid N Sekans Veritabanı ( http://www.embl embl_heidelberg.de ) gibi yerlere kabul ettirmeleri teşvik edilir. NCBI yeni girişleri gözden g geçirir ve istenildiğinde inde mevcut olanları update eder. Bir veritabanı kabul numarası ( ki sekansı yayınlamak için i in gerekli ) sağlan lanır. Yeni sekanslar günlg nlük GenBank,, EMBL ve DDBJ veritabanları tarafından değiştirilir.
DİZİLERİN N VERİTABANLARINA KABULÜ-2 Sekansları kabul ettirmenin en yeni ve en basit yolu http://www.ncbi ncbi.nlm.nih.gov/ web sitesinde web form sayfası olan BankIt ile yapmaktır. Sekansa ayrıca mrna başlang langıç ve kodlayıcı bölgeler gibi bilgide eklenebilir ( annotation yapmak ). Kabul ettirilen form GenBank formatına dönüştürülür d r ve araştırıcıya gözden g geçirmesi için i in gönderilir g ve ardından GanBank a eklenir. Kabul ettirmek için i in diğer bir yöntem y PC lerde ve UNIX makinelarında nda yürüyen yen Sequin ( önceden Authorin olarak adlandırılırd rdı ) kullanarak yapmaktır. Bu program kolayca kullanılan lan bir grafik arayüz sağlar ve genomik sekans bilgisi gibi büyük b kabülleri idare edebilir. http://www.ncbi ncbi.nlm.nih.gov/.gov/sequin/index.html de tanımlanm mlanmış ve gösterilmiştir tir ve ncbi.nlm nlm.nih.gov/sequin/ den herhangi bir FTP tarafından elde edilebilir. Tamamlanmış dosyalar ayrıca gb_sub sub@ncbi.nlm.nih.gov a e-mail ile gönderilebilir veya bir diskette GenBank Submissions National Center for Biotechnology Information, National Library of Medicine, Bldg.38A, Room 8N-803, 803, Bethesda,, Maryland 20894 USA adresine postalanabilinir.
Sekansın n Doğrulu ruluğu-1 GenBank ve diğer veritabanlarına na kabülden önce dizinin doğrulu ruluğunun unun detaylı bir kontrolü yoktur. Sık k sık s k bir dizi bir dergide makale olarak yayınland nlandığı zaman kabul edilir ve editoryal tarafsız z hakemlik işlemi i tarafından belirli bir kontrol seviyesi sağlan lanır. Bununla birlikte bir çok dizi yayınlanmaks nlanmaksızın n veya yayından önce kabul ettirilir. İnsan genom projesi veya model organizmaların n genom projeleri gibi büyük b sekanslama projesi yapan laboratuarlarda proje parasını veren ajans 10 kb başı şına 1 muhtemel hata şeklinde belirli bir doğruluk seviyesi ister. Bu doğruluk seviyesi dizi karşı şılaştırmaları,, kalıp araştırmalar rmaları ve translasyon gibi çoğu u sekans analiz uygulamaları için in yeterlidir.
Sekansın n Doğrulu ruluğu-2 EST lerin tek teşebb ebbüs sekanslamalarını yapan diğer laboratuarlarda hata oranı daha yüksek y olabilir örneğin 100 de 1 ve bu hatalı tanımlanan bazları, insert ve delet olan bazları da içerir. i Böylece GenBank ve diğer veritabanlarında nda EST dizilerini çevirirken yanlış baz yanlış aminoasidi verebilir. Bununla birlikte en kötük problem baz insersiyon veya delesyonları çerçeve eve kaymalarına sebep olur ve bir protein dizisiyle karşı şılaştırma ( alignment ) çok zor olur. Hata eğilimli e diğer bir veritabanı dizi tipi HIV nin protein kılıfındaki k bölgeler gibi bir patojenik organizmanın immunolojik varyantının sekans fragmentidir. Bu kadar düşük d k doğruluk seviyesi teşhis gibi bazı amaçlar için i in uygun olabilmesine karşı şılık k evrimsel analizler gibi daha detaylı analizler için i in böyle b dizi fragmentlerinin doğrulu ruluğu u belirlenmelidir.
DİZİLERİN N BİLGB LGİSAYARDA SAKLANMASI-1 Bir sekans analiz programındaki bir sekans dosyasını kullanmadan önce bilgisayar sekans dosyalarının n sadece sekans karakterlerini içerdiğini ini ve metin editörleri tarafından kullanılan lan özel karakterleri içermediğini ini garanti etmek önemlidir. Bir sekans dosyasını Word Processor ile edit etme öyle değişiklikler iklikler sokar ki bir kişi i metin ile veya ASCII dosyaları ( keyboard da da olan şekliyle ) ile sade çalışırken dikkatli olması gerekir. Çoğu u metin editörleri normal olarak standart ASCII karakterlerine ek olarak kontrol karakterlerini de içeren i metin dosyaları yaratır. r. Bu kontrol karakterleri sadece metin editör r programları tarafından tanınabilir. nabilir. Böyle kontrol karakterlerini içeren i sekans dosyaları doğru bir şekilde analiz edilmeyebilir. Editörler genellikle dosyaları sadece standart ASCII karakterleriyle saklamayı sağlar ve bu dosyalar çoğu u sekans analiz programı için in uygun olacaktır.
ASCII ve Hekzadesimal Bilgisayarlar sekans bilgisini tesbih taneleri denilen ( ki bilgisayar terminalinde gösterilen dizilere benzer ) basit sekans karakter dizileri şeklinde depolar. Her bir karakter byte denilen ikili kod halinde en küçük üçük k bellek biriminde depolanır. Her bir byte 8 bitten oluşur ur ve herbir bit 0 ve 1 şeklinde bir değere ere sahiptir böylece b 255 kombinasyon oluşturabilir ( 26=256 ). Kural olarak bu kombinasyonların çoğu u onların n ASCII eşiti e denilen özgül l bir tanıma sahiptir. Bazı ASCII değerleri erleri keyboard karakterleri olarak tanımlan mlanırken diğerleri özgül l kontrol karakterleri olarak tanımlan mlanır örneğin bir satırın n sonunun sinyali gibi ( bir satır besleyicisi ve bir taşı şıyıcı dönüş ) veya metnin tam bir dosya sonu ( dosya sonu karakteri ) gibi. Sadece ASCII karakterlerinden oluşan bir dosyaya ASCII dosyası denir. Uygun olması için in bütün b n ikili değerler erler hexadecimal format ile yazılabilirki bu bizim decimal format ( 0, 1, 2,...,9 ) artı harfler ( A,B,...F ) ) e karşı şılık k gelir. Böylece hexadecimal 0F ikili 0000 1111 e e ve decimal 15 e e karşı şılık k gelir ve FF ikili 1111 1111 ve decimal 255 e e karşı şılık k gelir. Bir DNA dizisi genellikle bilgisayarda bu ikili formatta bir 8-bit 8 kelime serileri gibi okunur ve depolanır. Bir protein dizisi amino asit harflerinin ikili formuna karşı şılık k gelen 8-bitlik 8 kelime serileri gibi görünür. g r.
DİZİLERİN N BİLGB LGİSAYARDA SAKLANMASI-2 Çoğu u sekans analiz programları ayrıca bir DNA veya protein sekans dosyasının n standart bir ASCII dosyası olarak değil ayrıca dosyanın n FASTA formatı gibi özel bir formatta olmasına ihtiyaç duyar. Bilgisayarda pencerelerin kullanımı böyle problemleri basitleştirdi tirdi çünk nkü bir kimse nadiren bir pencereden ( örneğin ENTREZ web sitesinde yürüyen y yen bir web browserı penceresi ) bir diziyi kopyalamak zorundadır r ve diğer bir pencereye yapış ıştırır r ( örneğin bir translasyon programına ). A, T, G, C gibi dört d baz sembolüne ek olarak Nomenclature Committee of the International Union of Biochemistry bir nükleik asit dizisindeki kesin ve açık k olmayan bazları temsil eden standart bir kod geliştirdi. Kodlar Tablo 2.1 de listelenmiştir. tir. Proteinlerin bilgisayar analizi için i in üç harfli amino asit kodları yerine tek harfli kodları kullanmak daha uygundur. Örneğin GenBank DNA sekans entrileri tek harf kodundan oluşan transle bir dizi içerir. i Standart tek harf amino asit kodu birleşik ik uluslar arası bir komite tarafından oluşturuldu ve Tablo 2.2 de gösterilmektedir. g Eğer sadece bir amino asitin ismi özel bir harfle başlarsa o zaman o harf kullanılr lr. Örneğin C sistein için. in. Diğer durumlarda seçilen harf fonetik olarak benzerdir. Örneğin R arjinin.. Alfabede yakın n da olabilir örneğin K lizin için. in.
SEKANS FORMATLARI Sekans analiz software i yürütürken rken karşı şılaştığımız z en büyük b k zorluk farklı programlar tarafından farklı sekans formatlarının n kullanılıyor olmasıdır. Bu formatların n hepsi standart ASCII dosyalarıdır r fakat onlar farklı bilgi tiplerinin bulunmasını ve sekansın n kendisinin bulunduğunu unu işaret i eden belirli karakter ve kelimelerin varlığı ığında farklıla laşır.
1. GenBank DNA Sekans Entrisi
2. Avrupa Moleküler ler Biyoloji Laboratuvarı ( EMBL ) Veri Kütüphanesi K Formatı
3. FASTA Sekans Formatı
4. National Biomedical Research Foundation / Protein Information Resource Sekans Formatı
5. Stanford Üniversitesi / Intelligenetics Sekans Formatı
6. Genetik Bilgisayar Grubu ( GCG ) Sekans Formatı
7. National Biomedical Research Vakfı / Protein Information Resource dan Elde edilen Sekans Dosyasının n Formatı
8. Genetik Veri Çevresi ( GDE ) Sekans Formatı
BİR R SEKANS FORMATINI DİĞD İĞERİNE DÖNÜŞTÜRMEK READSEQ Sekans Formatları Arasındaki DönüşümüD Sağlar. READSEQ Tablo 2.3 de gösterilen g bir DNA veya protein sekans dosyalarında herhangi bir formatı tanuyabilir, formatı belirler ve alternatif formatta yeni bir dosya yazar. Bu formatlatdan bazılar ları çoklu sekans hizalaması ve filogenetik analiz gibi özel analiz tipleri için i in kullanılır. seq1 ve seq2 gibi iki DNA sekans örneği i için i in bu formatların n görünümüg Tablo 2.4 de gösterilmig sterilmiştir. tir. READSEQ, http://dot dot.imgen..imgen.bcm.tmc.edu:9331/seq- util/readseq readseq.html de Baylor College of Medicine nin nin sitesinden veya ftp.bio bio.indiana.edu/.edu/molbio/readsq veya ftp.bioindiana bioindiana.edu/.edu/molbio/macmac da isimsiz bir FTP den uygun dosyalara ulaşmak için i in erişilebilir. ilebilir.
BİR R SEKANS FORMATINI DİĞD İĞERİNE DÖNÜŞTÜRMEK UNIX makinesi için i in diğer bir sekans dönüştürme programı http://bioweb bioweb.pasteur.fr/docs/seqio/seqio. html de tanımlanm mlanmıştır r ve download için in http://www.cs cs.ucdavis.edu/~~.edu/~~gusfield/sese qio.html de mevcuttur.
Sekans Formatlarının n Dönüştürülmesi D için i in GCG Programları from programları GCG formatındaki sekans dosyalarını isimlendirilmiş formata, to programları da alternatif formatı GCG formatına dönüştürür. d r. Gerçek ek program isimleri boşluk olmadan gösterilmig sterilmiştir. tir. GenBank ve EMBL formatlarına dönüştüren d programlar yoktur. FROMEMBL,FROMFASTA,FROMGENBANK,FROMIG,FROM PIR,FROMSTADEN,TOFASTA,TOIG,TOPIR,TOSTADEN Ayrıca GCG programları aşağıdaki sekans formatlama programlarını içerir: (1) GETSEQ, remote bir PC den aldığı basit bir ASCII dosyasını GCG formatına dönüştürür. r. (2) REFORMAT, edit edilmiş bir GCG dosyasını formatlar ve ayrıca diğer fonksiyonları da vardır ( 3 ) SPEW, bir GCG sekans dosyasını bir ASCII dosyası olarak remote bir PC ye gönderir. g
ÇOKLU SEKANS FORMATLARI Yukarıda listelenen sekans formatlarının çoğu u aynı bilgisayar dosyasında çoklu sekansları ardarda saklamak için in kullanılabilir. labilir. İstisnalar GCG ve sadece tekli sekanslar için i in tasarlanan ham sekans formatlarıdır. r. GCG aşağıa ğıda tanımland mlandığı gibi alternatif bir çoklu sekans formatına sahiptir. Ayrıca çoklu sekanslar için i in özellikle tasarlanıp hizalanmalarını göstermek veya filogenetik analiz gibi çoklu sekans analiz tiplerini uygulamak için i in kullanılabilen labilen formatlar vardır. r. PAUP durumunda program MSA formatını kabul eder ve NEXUS formatına dönüştürür. d r.
BİR R SEKANS VERİTABANINDA BİLGB LGİNİN SAKLANMASI Yukarıdaki bilgi relasyonel bir veri tabanında nda bulunan hemen hemen benzer şekilde tabular bir formda organize edilmiştir. Eğer birisi büyük b k bir tablo hayal edip her bir satırının n her bir sekans entrisini içerdiğini ini hayal ederse o zaman her bir sütun s yukarıdaki bilgi tiplerinden birisini her bir sekans için i in içerir i ve her bir sütun s ALAN olarak adlandırılır. r. Son sütun s sekansları içerir. Bu alanların herbirinde bir bilgi indeksi yapmak çok kolaydır r ve böylece bir search taraması indeks boyunca bütün b n oluşumlar umların n yerini belirler. Hatta akraba sekanslar bile çapraz referanslıdır. r. Ayrıca bir veri tabanındaki ndaki bilgi diğer bir veri tabanındaki ndaki ile çapraz olarak referanslıdır. r. DNA, protein ve referans veritabanlarının n hepsi çapraz olarak referanslıdır r ve böylece b onlar arasında hareket etmek kolayca başar arılır r ( ENTREZ e bak ).
Veri Tabanı Tipleri Bazılar ları!
ENTREZ Veri Tabanı Erişim im Programı http://ncbi ncbi.nlm.nih.gov/.gov/entrez
Spesifik Bir Sekans Elde Etme Yukarıdaki kuralları izleseniz bile spesifik bir gen veya protein dizisini elde etmek zor olabilir çünk nkü GenBank veri tabanındaki ndaki sekans sayısının çok olması ve onları indekslemenin kompleks bir problem olmasıdır. Şu u anda mevcut olan sekanslara ihtiyaç duyan projeler için i in NR veri tabanları araştırılmal lmalıdır. Diğer projeler daha iyi kür k r edilen ve annotasyon yapılan protein sekans veri tabanları olan PIR ve SwissProt un mevcudiyetinden faydalanabilirler. Genpro veri tabanındaki ndaki protein sekansları DNA dizilerinin otomatik olarak translasyonuyla yaratılm lmıştır. mrna dizilerinin cdna kopyalarından okunduğu u zaman onlar güvenilir g bir sekans sağlarlar ( translasyonal başlang langıç noktasına na belirli bir miktar belirsizlik olmasına rağmen ). Birçok protein sekansı şimdi genomik dizilerin translasyonuyla ekzonları tahmin ederek tahmin edilmektedir. Böylece B protein sekans entrilerinin orijininin belirlenmesine ihtiyaç vardır r ve eğer e er onlar bir cdna sekansından ndan değillerse o genin bir cdna kopyasını sekanslamak ve elde etmek gerekli olabilir.
Teşekk ekkürler!