LABORATUARDA SEKANSLARIN TOPLANMASI VE DEPOLANMASI. Ayhan YILMAZ

Benzer belgeler

K12NET Eğitim Yönetim Sistemi

BÖL-1B. Fatih University- Faculty of Engineering- Electric and Electronic Dept.

ULAKBİM Danışma Hizmetlerinde Yeni Uygulamalar: Makale İstek Sistemi ve WOS Atıf İndeksleri Yayın Sayıları Tarama Robotu

Şekil 1. Sistem Açılış Sayfası

DÖNER SERMAYE MALİ YÖNETİM SİSTEMİ

B02.8 Bölüm Değerlendirmeleri ve Özet

İÇİNDEKİLER. 1. Projenin Amacı Proje Yönetimi Projenin Değerlendirilmesi Projenin Süresi Projenin Kapsamı...

VEGAWINA VERSION

ÖĞRENME FAALĠYETĠ GELĠġMĠġ ÖZELLĠKLER

Temel Bilgisayar Programlama

Evrak Ekle. Kurum İçi Giden Evrak Ekleme. Kırmızı renker; doldurulması zorunlu alanları ifade etmektedir. İleri Geri tarihli işlem yapılamamaktadır.

Dosya sistemi (File system), dosyaların hard disk üzerinde nasıl yerleşeceğini ayarlayan bir sistemdir. Diğer bir tanıma göre dosya sistemi, bir

1. Mesaj Tipi ve Mesaj Fonksiyonu Bazında Bildirim Mail Adresi Tanımlama Đşlemleri

BQTEK SMS Asistan. Kullanım Kılavuzu. Doküman Versiyon: BQTEK

Q-BIZ VIEWER KULLANIM KILAVUZU

ÖĞRENME FAALĠYETĠ 6 ÖĞRENME FAALĠYETĠ NESNE ĠġLEMLERĠ

Fizik ve Ölçme. Fizik deneysel gözlemler ve nicel ölçümlere dayanır

5510 sayılı SGK kanunu hakkında duyurular

IEEE ANA MARKASI VE ÖĞRENCİ KOLLARI LOGO TASARIM KILAVUZU

Braille Star 40 Başvuru Kitapçığı Sürüm 4.0 Lütfen bu başvuru kitapçığıyla birlikte paketinizde bulunan kullanıcı kılavuzunu da gözden geçirin.

ÖLÇÜ TRANSFORMATÖRLERİNİN KALİBRASYONU VE DİKKAT EDİLMESİ GEREKEN HUSUSLAR

BİT ini Kullanarak Bilgiye Ulaşma ve Biçimlendirme (web tarayıcıları, eklentiler, arama motorları, ansiklopediler, çevrimiçi kütüphaneler ve sanal

BÖLÜM 7 BİLGİSAYAR UYGULAMALARI - 1

İşletim Sisteminin Katmanları

TEKNİK RESİM. Ders Notları: Mehmet Çevik Dokuz Eylül Üniversitesi. Görünüşler - 1

ACENTE PORTAL QUICKRES/TROYA ACENTE BAŞVURU KILAVUZU

CSD-OS İşletim Sistemi Projesi - Fonksiyon Açıklama Standardı

DİKKAT! SORU KİTAPÇIĞINIZIN TÜRÜNÜ "A" OLARAK CEVAP KÂĞIDINA İŞARETLEMEYİ UNUTMAYINIZ. SAYISAL BÖLÜM SAYISAL-2 TESTİ

Digifresh Kullanım Kılavuzu

En İyi Uygulamalar ve Kullanım Kılavuzu

Yorka Yazılım Dokuma Otomasyonu Projesi. KONU : Dokuma Üretim Takibi ve Otomasyonu

2- Bilim ve Danışma Kurulu Onayına Sunulacak Eserlere Đlişkin Yayın

DOKÜMAN YÖNETİM SİSTEMİ KULLANIMI GELEN EVRAK

AĞ ÜZERİNDEN YAZICI ve TARAYICI TANIMLAMA KLAVUZU

ELITE A.G. KS100/HEFM SICAK-SOĞUK ETĐKET BOY KESME VE ĐŞARETLEME MAKĐNASI KULLANIM KILAVUZU

PROGRAMLAMA TEMELLER. C Program Yap s

SAYI BASAMAKLARI. çözüm

NAMIK KEMAL ÜNĠVERSĠTESĠ AKADEMĠK YÜKSELTME VE ATAMALARDA DEĞERLENDĠRĠLECEK BĠLĠMSEL PERFORMANS DEĞERLENDĠRME KRĠTERLERĠ

Akademik Personel ve Lisansüstü Eğitimi Giriş Sınavı. ALES / Đlkbahar / Sayısal II / 22 Nisan Matematik Soruları ve Çözümleri

Ulakbim Ulusal Veri Tabanlar

SAYISAL TASARIM. Ege Üniversitesi Ege MYO Mekatronik Programı

PROFESSIONAL DEVELOPMENT COLLECTION GAZİ ÜNİVERSİTESİ MERKEZ KÜTÜPHANESİ

OFİS 365 ÖĞRENCİ MAİL SİSTEMİ KULLANIM KLAVUZU. Office 365

Urkund Hızlı Başlangıç Kılavuzu

Resmi Gazete Tarihi: Resmi Gazete Sayısı: 28349

B05.11 Faaliyet Alanı

Bölüm 3. Sentaks ve semantik tarifi ISBN

BEBEK FORMÜLLERİ TEBLİĞİ

E-Arşiv Uygulamasında Değişiklik Yapıldı

BİYOEŞDEĞERLİK ÇALIŞMALARINDA KLİNİK PROBLEMLERİN BİR KAÇ ÖZEL OLGUYLA KISA DEĞERLENDİRİLMESİ Prof.Dr.Aydin Erenmemişoğlu

Temel Giriş/Çıkış Fonksiyonları (Devam) Örnek :

MAKÜ YAZ OKULU YARDIM DOKÜMANI 1. Yaz Okulu Ön Hazırlık İşlemleri (Yaz Dönemi Oidb tarafından aktifleştirildikten sonra) Son aktif ders kodlarının

SİRKÜLER İstanbul, Sayı: 2016/01. Konu: E-DEFTER GÖRÜNTÜLEYİCİ PROGRAMI İLE SÖZ KONUSU PROGRAMA İLİŞKİN KULLANIM KILAVUZU YAYINLANMIŞTIR

PERKON PDKS Kurulum ve hızlı başlangıç rehberi

Uzaktan Kumanda (Yalnızca Belirli Modellerde)

Topoloji değişik ağ teknolojilerinin yapısını ve çalışma şekillerini anlamada başlangıç noktasıdır.

Tasarım Raporu. Grup İsmi. Yasemin ÇALIK, Fatih KAÇAK. Kısa Özet

PROJE TEKLİF FORMU. Haydi birlikte harika bir iş çıkartalım.

KAPSAMLI İÇERİK SADELEŞTİRİLMİŞ ARAMA MOTORU YENİLİKÇİ BİLGİ İŞLEME TEKNOLOJİSİ PRATİK GÖRÜNTÜLEME ARAÇLARI MOBİL ERİŞİM

Sonlu Durumlu Makineler

Öncelikle Markamıza göstermiş olduğunuz ilgiden dolayı teşekkür ederiz.

Anaokulu /aile yuvası anketi 2015

Gümrük Müsteşarlığından: GÜMRÜK GENEL TEBLİĞİ (ULUSLARARASI ANLAŞMALAR) (SERİ NO: 7)

MAT223 AYRIK MATEMATİK

KAHRAMANMARAŞ SÜTÇÜ İMAM ÜNİVERSİTESİ SOSYAL BİLİMLER ENSTİTÜSÜ MÜDÜRLÜĞÜ'NE

BIM BUILDING INFORMATION MODELING YAPI BİLGİ MODELİ

ve Menüleri Özelleştirmek, Sistem Ayarlarını Değiştirmek

Kalite verimlilikle buluştu. DR6000 UV-VIS Spektrofotometre

K.S.Ü. MÜHENDİSLİK MİMARLIK FAKÜLTESİ TEKSTİL MÜHENDİSLİĞİ BÖLÜMÜ BİTİRME ÖDEVİ / BİTİRME PROJESİ DERSLERİ İLE İLGİLİ İLKELER

DENEY 2: PROTOBOARD TANITIMI VE DEVRE KURMA

PREANALİTİK EVRENİN DEĞERLENDİRİLMESİNDE LABORATUVAR BİLGİ YÖNETİM SİSTEMLERİNİN ROLÜ. Oğuzhan ZENGİ Bağcılar Eğitim ve Araştırma Hastanesi

13 Kasım İlgili Modül/ler : Satın Alma ve Teklif Yönetimi. İlgili Versiyon/lar : ETA:SQL, ETA:V.8-SQL

Resmi Gazete Tarihi: Resmî Gazete Resmi Gazete Sayısı: YÖNETMELİK ELEKTRONİK HABERLEŞME SEKTÖRÜNDE HİZMET KALİTESİ YÖNETMELİĞİ

YATIRIM FONU ALIM SATIM İŞLEMLERİ KULLANICI KILAVUZU

EKONOMİK GELİŞMELER Eylül 2012

DB: IT SERVİS YÖNETİMİNİN KALBİ

ANALOG LABORATUARI İÇİN BAZI GEREKLİ BİLGİLER

DERS KATEGORİSİ TEORİ+UYGULAMA (SAAT)

BİLGİSAYAR PROGRAMLARI YARDIMIYLA ŞEV DURAYLILIK ANALİZLERİ * Software Aided Slope Stability Analysis*

SÜREÇ YÖNETİMİ VE SÜREÇ İYİLEŞTİRME H.Ömer Gülseren > ogulseren@gmail.com

LG BİREYSEL AKILLI TELEFON KAMPANYA TAAHHÜTNAMESİ

DOĞALGAZ SEKTÖRÜ LEAP MODELLEMESİ

Bölüm 11. Yönetim Stratejilerinin Uygulanmasında Kullanılan Teknikler İŞLETME BİRLEŞMELERİ. (Mergers)

Danışma Kurulu Tüzüğü

İSTANBUL TİCARET ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ BİLGİSAYAR SİSTEMLERİ LABORATUARI YÜZEY DOLDURMA TEKNİKLERİ

SİRKÜLER. 1.5-Adi ortaklığın malları, ortaklığın iştirak halinde mülkiyet konusu varlıklarıdır.

Web Madenciliği (Web Mining)

in Kullanımı tamamlamış gerçekleştirmiş

META TRADER 4 MOBİL İŞLEM PLATFORMLARI KULLANMA KILAVUZU 1. KURULUM

Kis3 max Cep Telefonu Hızlı Başlangıç Kılavuzu

7. SINIF MATEMATİK TESTİ A. 1. Yandaki eşkenar dörtgensel bölge şeklindeki uçurtma I, II, III ve IV nolu

BULUŞ BİLDİRİM FORMU / APARAT

DEĞERLENDİRME NOTU: Mehmet Buğra AHLATCI Mevlana Kalkınma Ajansı, Araştırma Etüt ve Planlama Birimi Uzmanı, Sosyolog

AIMCO AIMCO. Kullanım Kılavuzu. Mayıs 2016

İçinde x, y, z gibi değişkenler geçen önermelere açık önerme denir.

VER TABANI VE STANDART DOSYA PLANI KURULUM KLAVUZU

Kısa İsim 1. Bu Yönetmelik, Belge Sayı Sistemi Yönetmeliği olarak isimlendirilir. Tefsir 2. Bu Yönetmelikte, metin başka türlü gerektirmedikçe;

Şekil 1.2:Programa giriş penceresi

12 AY KONTRATLI FATURALI INTERNET KAMPANYA TAAHHÜTNAMESİ

Transkript:

BİYOİNFORMATİK: LABORATUARDA SEKANSLARIN TOPLANMASI VE DEPOLANMASI Ayhan YILMAZ

Sunum Taslağı DNA NIN NIN SEKANSLANMASI Genomik Sekanslama Shotgun Sekanslama Eksprese Olan Genlerin cdna Kütüphanelerini Sekanslama DİZİLERİN N VERİTABANLARINA KABULÜ Sekansın n Doğrulu ruluğu DİZİLERİN N BİLGB LGİSAYARDA SAKLANMASI ASCII ve Hexadecimal SEKANS FORMATLARI BİR R SEKANS FORMATINI DİĞD İĞERİNE DÖNÜŞTÜRMEKD READSEQ Sekans Formatları Arasındaki DönüşümüD Sağlar Sekans Formatlarının n Dönüştürülmesi D için i in GCG Programları ÇOKLU SEKANS FORMATLARI BİR R SEKANS VERİTABANINDA BİLGB LGİNİN N SAKLANMASI Veri Tabanı Tipleri Veri Tabanı Erişim im Programı Olan ENTREZ in Kullanımı Spesifik Bir Sekans Elde Etme

Giriş Bu sunum DNA moleküllerinin llerinin sekanslarını toplamada ve bilgisayar dosyalarında depolamada kullanılan lan metotları özetlemektedir. Bir kere bilgisayara girdimi artık k sekanslar çeşitli metotlarla analiz edilebilir. Ayrıca uzun moleküllerin llerin sekansları kısa moleküllerin llerin sekanslarının birleştirilmesiyle kolayca yapılabilir. Birleştirilmi tirilmiş sekanslar DNA kaynağı ( organizma ), gen ismi ve araştırıcısı gibi belirtici özelliklerle beraber bir bilgisayar dosyasında saklanır. Sekans ve aksesuarı ardından bir veritabanına na girilir. Bu yöntem y onları öyle organize eder ki özel olanlar ileride kullanım için in bir veritabanı araştırma rma programı tarafından elde edilebilir. Ne yazık k ki çoğu u sekans analiz programı bir sekans dosyasındaki bilginin özel bir formatta depolanmasına na ihtiyaç duyar. Bu programları kullanmak için i in bu formatların n farkında olmak ve bir formatı diğerine dönüştürebilmek d gerekir.

DNA NIN NIN SEKANSLANMASI Sanger metodu?

Strateji chromosome walking!

Genomik Sekanslama clone by clone sequencing shotgun sequencing

Shotgun Sekanslama Yukarıdaki shotgun sekanslama stratejisi insan genomu gibi tekrar dizileri olan genomlara uygulanabilirmi? Eğer farklı kromozomal bölgelerden türeyen t DNA fragmentleri aynı dizide tekrarlara sahipse onlar overlap ediyorlarmış görünürler. rler. Tamamen yeni bir shotgun yaklaşı şımında Celera Genomics 2 kb ( kısa k ), 10 kb ( orta ) ve BAC veya 100 kb ( uzun ) uzunlukta DNA fragmentlerinin uçlarını sekanslıyor yor. Birçok sayıda okuma daha sonra bilgisayar tarafından birleştiriliyor. Bu metod oldukça a yüksek y derecede tekrarlı bölgelerin çıkarılmasından sonra Drosophila melanogaster in genomunun birleştirilmesinde kullanıld ldı ve ayrıca insan genomunun önemli bir kısmk smının n birleştirilmesinde de kullanıld ldı.

DİZİLERİN N VERİTABANLARINA KABULÜ-1 Araştırıcılar ların n yeni elde ettikleri dizilerini doğrudan Uluslar arası Nükleotid Dizi Veritabanı İşbirli birliğinin inin bir üyesi olan National Center for Biotechnology Information ( NCBI ) ( ki GenBank ı= http://www.ncbi ncbi.nlm.nih.gov yönetir ), Japonyanın DNA veribankası olan DDBJ ( http://www.ddbj ddbj.nig.ac.jp ) veya Avrupa Moleküler ler Biyoloji Laboratuarı olan EMBL / EBI Nükleotid N Sekans Veritabanı ( http://www.embl embl_heidelberg.de ) gibi yerlere kabul ettirmeleri teşvik edilir. NCBI yeni girişleri gözden g geçirir ve istenildiğinde inde mevcut olanları update eder. Bir veritabanı kabul numarası ( ki sekansı yayınlamak için i in gerekli ) sağlan lanır. Yeni sekanslar günlg nlük GenBank,, EMBL ve DDBJ veritabanları tarafından değiştirilir.

DİZİLERİN N VERİTABANLARINA KABULÜ-2 Sekansları kabul ettirmenin en yeni ve en basit yolu http://www.ncbi ncbi.nlm.nih.gov/ web sitesinde web form sayfası olan BankIt ile yapmaktır. Sekansa ayrıca mrna başlang langıç ve kodlayıcı bölgeler gibi bilgide eklenebilir ( annotation yapmak ). Kabul ettirilen form GenBank formatına dönüştürülür d r ve araştırıcıya gözden g geçirmesi için i in gönderilir g ve ardından GanBank a eklenir. Kabul ettirmek için i in diğer bir yöntem y PC lerde ve UNIX makinelarında nda yürüyen yen Sequin ( önceden Authorin olarak adlandırılırd rdı ) kullanarak yapmaktır. Bu program kolayca kullanılan lan bir grafik arayüz sağlar ve genomik sekans bilgisi gibi büyük b kabülleri idare edebilir. http://www.ncbi ncbi.nlm.nih.gov/.gov/sequin/index.html de tanımlanm mlanmış ve gösterilmiştir tir ve ncbi.nlm nlm.nih.gov/sequin/ den herhangi bir FTP tarafından elde edilebilir. Tamamlanmış dosyalar ayrıca gb_sub sub@ncbi.nlm.nih.gov a e-mail ile gönderilebilir veya bir diskette GenBank Submissions National Center for Biotechnology Information, National Library of Medicine, Bldg.38A, Room 8N-803, 803, Bethesda,, Maryland 20894 USA adresine postalanabilinir.

Sekansın n Doğrulu ruluğu-1 GenBank ve diğer veritabanlarına na kabülden önce dizinin doğrulu ruluğunun unun detaylı bir kontrolü yoktur. Sık k sık s k bir dizi bir dergide makale olarak yayınland nlandığı zaman kabul edilir ve editoryal tarafsız z hakemlik işlemi i tarafından belirli bir kontrol seviyesi sağlan lanır. Bununla birlikte bir çok dizi yayınlanmaks nlanmaksızın n veya yayından önce kabul ettirilir. İnsan genom projesi veya model organizmaların n genom projeleri gibi büyük b sekanslama projesi yapan laboratuarlarda proje parasını veren ajans 10 kb başı şına 1 muhtemel hata şeklinde belirli bir doğruluk seviyesi ister. Bu doğruluk seviyesi dizi karşı şılaştırmaları,, kalıp araştırmalar rmaları ve translasyon gibi çoğu u sekans analiz uygulamaları için in yeterlidir.

Sekansın n Doğrulu ruluğu-2 EST lerin tek teşebb ebbüs sekanslamalarını yapan diğer laboratuarlarda hata oranı daha yüksek y olabilir örneğin 100 de 1 ve bu hatalı tanımlanan bazları, insert ve delet olan bazları da içerir. i Böylece GenBank ve diğer veritabanlarında nda EST dizilerini çevirirken yanlış baz yanlış aminoasidi verebilir. Bununla birlikte en kötük problem baz insersiyon veya delesyonları çerçeve eve kaymalarına sebep olur ve bir protein dizisiyle karşı şılaştırma ( alignment ) çok zor olur. Hata eğilimli e diğer bir veritabanı dizi tipi HIV nin protein kılıfındaki k bölgeler gibi bir patojenik organizmanın immunolojik varyantının sekans fragmentidir. Bu kadar düşük d k doğruluk seviyesi teşhis gibi bazı amaçlar için i in uygun olabilmesine karşı şılık k evrimsel analizler gibi daha detaylı analizler için i in böyle b dizi fragmentlerinin doğrulu ruluğu u belirlenmelidir.

DİZİLERİN N BİLGB LGİSAYARDA SAKLANMASI-1 Bir sekans analiz programındaki bir sekans dosyasını kullanmadan önce bilgisayar sekans dosyalarının n sadece sekans karakterlerini içerdiğini ini ve metin editörleri tarafından kullanılan lan özel karakterleri içermediğini ini garanti etmek önemlidir. Bir sekans dosyasını Word Processor ile edit etme öyle değişiklikler iklikler sokar ki bir kişi i metin ile veya ASCII dosyaları ( keyboard da da olan şekliyle ) ile sade çalışırken dikkatli olması gerekir. Çoğu u metin editörleri normal olarak standart ASCII karakterlerine ek olarak kontrol karakterlerini de içeren i metin dosyaları yaratır. r. Bu kontrol karakterleri sadece metin editör r programları tarafından tanınabilir. nabilir. Böyle kontrol karakterlerini içeren i sekans dosyaları doğru bir şekilde analiz edilmeyebilir. Editörler genellikle dosyaları sadece standart ASCII karakterleriyle saklamayı sağlar ve bu dosyalar çoğu u sekans analiz programı için in uygun olacaktır.

ASCII ve Hekzadesimal Bilgisayarlar sekans bilgisini tesbih taneleri denilen ( ki bilgisayar terminalinde gösterilen dizilere benzer ) basit sekans karakter dizileri şeklinde depolar. Her bir karakter byte denilen ikili kod halinde en küçük üçük k bellek biriminde depolanır. Her bir byte 8 bitten oluşur ur ve herbir bit 0 ve 1 şeklinde bir değere ere sahiptir böylece b 255 kombinasyon oluşturabilir ( 26=256 ). Kural olarak bu kombinasyonların çoğu u onların n ASCII eşiti e denilen özgül l bir tanıma sahiptir. Bazı ASCII değerleri erleri keyboard karakterleri olarak tanımlan mlanırken diğerleri özgül l kontrol karakterleri olarak tanımlan mlanır örneğin bir satırın n sonunun sinyali gibi ( bir satır besleyicisi ve bir taşı şıyıcı dönüş ) veya metnin tam bir dosya sonu ( dosya sonu karakteri ) gibi. Sadece ASCII karakterlerinden oluşan bir dosyaya ASCII dosyası denir. Uygun olması için in bütün b n ikili değerler erler hexadecimal format ile yazılabilirki bu bizim decimal format ( 0, 1, 2,...,9 ) artı harfler ( A,B,...F ) ) e karşı şılık k gelir. Böylece hexadecimal 0F ikili 0000 1111 e e ve decimal 15 e e karşı şılık k gelir ve FF ikili 1111 1111 ve decimal 255 e e karşı şılık k gelir. Bir DNA dizisi genellikle bilgisayarda bu ikili formatta bir 8-bit 8 kelime serileri gibi okunur ve depolanır. Bir protein dizisi amino asit harflerinin ikili formuna karşı şılık k gelen 8-bitlik 8 kelime serileri gibi görünür. g r.

DİZİLERİN N BİLGB LGİSAYARDA SAKLANMASI-2 Çoğu u sekans analiz programları ayrıca bir DNA veya protein sekans dosyasının n standart bir ASCII dosyası olarak değil ayrıca dosyanın n FASTA formatı gibi özel bir formatta olmasına ihtiyaç duyar. Bilgisayarda pencerelerin kullanımı böyle problemleri basitleştirdi tirdi çünk nkü bir kimse nadiren bir pencereden ( örneğin ENTREZ web sitesinde yürüyen y yen bir web browserı penceresi ) bir diziyi kopyalamak zorundadır r ve diğer bir pencereye yapış ıştırır r ( örneğin bir translasyon programına ). A, T, G, C gibi dört d baz sembolüne ek olarak Nomenclature Committee of the International Union of Biochemistry bir nükleik asit dizisindeki kesin ve açık k olmayan bazları temsil eden standart bir kod geliştirdi. Kodlar Tablo 2.1 de listelenmiştir. tir. Proteinlerin bilgisayar analizi için i in üç harfli amino asit kodları yerine tek harfli kodları kullanmak daha uygundur. Örneğin GenBank DNA sekans entrileri tek harf kodundan oluşan transle bir dizi içerir. i Standart tek harf amino asit kodu birleşik ik uluslar arası bir komite tarafından oluşturuldu ve Tablo 2.2 de gösterilmektedir. g Eğer sadece bir amino asitin ismi özel bir harfle başlarsa o zaman o harf kullanılr lr. Örneğin C sistein için. in. Diğer durumlarda seçilen harf fonetik olarak benzerdir. Örneğin R arjinin.. Alfabede yakın n da olabilir örneğin K lizin için. in.

SEKANS FORMATLARI Sekans analiz software i yürütürken rken karşı şılaştığımız z en büyük b k zorluk farklı programlar tarafından farklı sekans formatlarının n kullanılıyor olmasıdır. Bu formatların n hepsi standart ASCII dosyalarıdır r fakat onlar farklı bilgi tiplerinin bulunmasını ve sekansın n kendisinin bulunduğunu unu işaret i eden belirli karakter ve kelimelerin varlığı ığında farklıla laşır.

1. GenBank DNA Sekans Entrisi

2. Avrupa Moleküler ler Biyoloji Laboratuvarı ( EMBL ) Veri Kütüphanesi K Formatı

3. FASTA Sekans Formatı

4. National Biomedical Research Foundation / Protein Information Resource Sekans Formatı

5. Stanford Üniversitesi / Intelligenetics Sekans Formatı

6. Genetik Bilgisayar Grubu ( GCG ) Sekans Formatı

7. National Biomedical Research Vakfı / Protein Information Resource dan Elde edilen Sekans Dosyasının n Formatı

8. Genetik Veri Çevresi ( GDE ) Sekans Formatı

BİR R SEKANS FORMATINI DİĞD İĞERİNE DÖNÜŞTÜRMEK READSEQ Sekans Formatları Arasındaki DönüşümüD Sağlar. READSEQ Tablo 2.3 de gösterilen g bir DNA veya protein sekans dosyalarında herhangi bir formatı tanuyabilir, formatı belirler ve alternatif formatta yeni bir dosya yazar. Bu formatlatdan bazılar ları çoklu sekans hizalaması ve filogenetik analiz gibi özel analiz tipleri için i in kullanılır. seq1 ve seq2 gibi iki DNA sekans örneği i için i in bu formatların n görünümüg Tablo 2.4 de gösterilmig sterilmiştir. tir. READSEQ, http://dot dot.imgen..imgen.bcm.tmc.edu:9331/seq- util/readseq readseq.html de Baylor College of Medicine nin nin sitesinden veya ftp.bio bio.indiana.edu/.edu/molbio/readsq veya ftp.bioindiana bioindiana.edu/.edu/molbio/macmac da isimsiz bir FTP den uygun dosyalara ulaşmak için i in erişilebilir. ilebilir.

BİR R SEKANS FORMATINI DİĞD İĞERİNE DÖNÜŞTÜRMEK UNIX makinesi için i in diğer bir sekans dönüştürme programı http://bioweb bioweb.pasteur.fr/docs/seqio/seqio. html de tanımlanm mlanmıştır r ve download için in http://www.cs cs.ucdavis.edu/~~.edu/~~gusfield/sese qio.html de mevcuttur.

Sekans Formatlarının n Dönüştürülmesi D için i in GCG Programları from programları GCG formatındaki sekans dosyalarını isimlendirilmiş formata, to programları da alternatif formatı GCG formatına dönüştürür. d r. Gerçek ek program isimleri boşluk olmadan gösterilmig sterilmiştir. tir. GenBank ve EMBL formatlarına dönüştüren d programlar yoktur. FROMEMBL,FROMFASTA,FROMGENBANK,FROMIG,FROM PIR,FROMSTADEN,TOFASTA,TOIG,TOPIR,TOSTADEN Ayrıca GCG programları aşağıdaki sekans formatlama programlarını içerir: (1) GETSEQ, remote bir PC den aldığı basit bir ASCII dosyasını GCG formatına dönüştürür. r. (2) REFORMAT, edit edilmiş bir GCG dosyasını formatlar ve ayrıca diğer fonksiyonları da vardır ( 3 ) SPEW, bir GCG sekans dosyasını bir ASCII dosyası olarak remote bir PC ye gönderir. g

ÇOKLU SEKANS FORMATLARI Yukarıda listelenen sekans formatlarının çoğu u aynı bilgisayar dosyasında çoklu sekansları ardarda saklamak için in kullanılabilir. labilir. İstisnalar GCG ve sadece tekli sekanslar için i in tasarlanan ham sekans formatlarıdır. r. GCG aşağıa ğıda tanımland mlandığı gibi alternatif bir çoklu sekans formatına sahiptir. Ayrıca çoklu sekanslar için i in özellikle tasarlanıp hizalanmalarını göstermek veya filogenetik analiz gibi çoklu sekans analiz tiplerini uygulamak için i in kullanılabilen labilen formatlar vardır. r. PAUP durumunda program MSA formatını kabul eder ve NEXUS formatına dönüştürür. d r.

BİR R SEKANS VERİTABANINDA BİLGB LGİNİN SAKLANMASI Yukarıdaki bilgi relasyonel bir veri tabanında nda bulunan hemen hemen benzer şekilde tabular bir formda organize edilmiştir. Eğer birisi büyük b k bir tablo hayal edip her bir satırının n her bir sekans entrisini içerdiğini ini hayal ederse o zaman her bir sütun s yukarıdaki bilgi tiplerinden birisini her bir sekans için i in içerir i ve her bir sütun s ALAN olarak adlandırılır. r. Son sütun s sekansları içerir. Bu alanların herbirinde bir bilgi indeksi yapmak çok kolaydır r ve böylece bir search taraması indeks boyunca bütün b n oluşumlar umların n yerini belirler. Hatta akraba sekanslar bile çapraz referanslıdır. r. Ayrıca bir veri tabanındaki ndaki bilgi diğer bir veri tabanındaki ndaki ile çapraz olarak referanslıdır. r. DNA, protein ve referans veritabanlarının n hepsi çapraz olarak referanslıdır r ve böylece b onlar arasında hareket etmek kolayca başar arılır r ( ENTREZ e bak ).

Veri Tabanı Tipleri Bazılar ları!

ENTREZ Veri Tabanı Erişim im Programı http://ncbi ncbi.nlm.nih.gov/.gov/entrez

Spesifik Bir Sekans Elde Etme Yukarıdaki kuralları izleseniz bile spesifik bir gen veya protein dizisini elde etmek zor olabilir çünk nkü GenBank veri tabanındaki ndaki sekans sayısının çok olması ve onları indekslemenin kompleks bir problem olmasıdır. Şu u anda mevcut olan sekanslara ihtiyaç duyan projeler için i in NR veri tabanları araştırılmal lmalıdır. Diğer projeler daha iyi kür k r edilen ve annotasyon yapılan protein sekans veri tabanları olan PIR ve SwissProt un mevcudiyetinden faydalanabilirler. Genpro veri tabanındaki ndaki protein sekansları DNA dizilerinin otomatik olarak translasyonuyla yaratılm lmıştır. mrna dizilerinin cdna kopyalarından okunduğu u zaman onlar güvenilir g bir sekans sağlarlar ( translasyonal başlang langıç noktasına na belirli bir miktar belirsizlik olmasına rağmen ). Birçok protein sekansı şimdi genomik dizilerin translasyonuyla ekzonları tahmin ederek tahmin edilmektedir. Böylece B protein sekans entrilerinin orijininin belirlenmesine ihtiyaç vardır r ve eğer e er onlar bir cdna sekansından ndan değillerse o genin bir cdna kopyasını sekanslamak ve elde etmek gerekli olabilir.

Teşekk ekkürler!