BĐYOLOJĐK VERĐ TABANLARINA GĐRĐŞ



Benzer belgeler
BİYOİNFORMATİK CİHAN SUVARİ

Soru 1: DNA miktarını saptamak için spektrofotometrik yöntemin arkasındaki prensibi açıklayınız:

Homoloji: Homolog iki gen, yüksek seviyede dizilim

BİYOİNFORMATİK ARAŞTIRMALARI VE ARAÇLARI

SNP TEK NÜKLEOTİD POLİMORFİZMLERİ (SINGLE NUCLEOTIDE POLYMORPHISMS)

BİYOİNFORMATİK GİZEM BAKKAL ZEYNEP TURAN ŞEYDA KARŞIYAKA ÜMMÜHAN YOZGAN GİZEM BOLAT

TÜBİTAK BİDEB LİSE ÖĞRETMENLERİ-FİZİK, KİMYA, BİYOLOJİ, MATEMATİK- PROJE DANIŞMANLIĞI EĞİTİMİ ÇALIŞTAYI (LİSE-3 [ÇALIŞTAY 2013])

AVRASYA ÜNİVERSİTESİ

AVRASYA ÜNİVERSİTESİ

hendisliği BYM613 Genetik MühendisliM Tanımlar: Gen, genom DNA ve yapısı, Nükleik asitler Genetik şifre DNA replikasyonu

Hafta VIII Rekombinant DNA Teknolojileri

Giriş. İlgi çekici ve hızla gelişen bu bilim dalına genomikler adı verilmektedir. Kaynak: Biotechnology (An Introduction) - Susan S.

Populasyon Genetiği. Populasyonlardaki alel ve gen frekanslarının değişmesine neden olan süreçleri araştıran evrimsel bilim dalı.

Yeni Nesil Genomik Sistemler. ve Uygulamaları

Yrd.Doç.Dr. Yosun MATER

GÖĞÜS HASTALIKLARINDA GENETİK ARAŞTIRMA. Prof. Dr. Nejat Akar Ankara Üniversitesi

Gen Organizasyonu ve Genomların Evrimi

OMİK(S)LER Genomik(s), Transkriptomik(s), Proteomik(s) Doç. Dr. Murat Kasap KOU Tıp Fak. Tıbbi Biyoloji AD

SADE ve SAGE ve Gen Ekspresyonunun Seri Analizi. Prof.Dr. Nermin GÖZÜKIRMIZI

BİYOLOJİ DERS NOTLARI YGS-LGS YÖNETİCİ MOLEKÜLLER

Metagenom Analiz Stratejileri

Anksiyete Bozukluklarında Genom Boyu Asosiyasyon Çalışmaları

Tıbbın Geleceğine dair.. Genetik Testler ve Kişiselleşmiş Tıp Anlayışı. B. Aysin Sermen

DNA Dizileme (Sekanslama)

BMB204. Veri Yapıları Ders 12. Dizgi Eşleme (String Matching) Algoritmaları İleri Veri Yapıları

DERS BİLGİLERİ BTEC

Türkiyede Özgün İlaç Geliştirilebilir mi? Kimya ve Biyoloji Mühendisliği Bölümü Koc Üniversitesi, Sariyer, İstanbul

Biyolojik Veritabanları ve Biyoinformatik Analiz Araçları

KALITSAL MADDE PROF. DR. SERKAN YILMAZ

MOLEKÜLER BİYOLOJİ DOÇ. DR. MEHMET KARACA (5. BÖLÜM)

Biyoloji = Canlı Bilimi. Biyoloji iki ana bölümden oluşur:

Niçin PCR? Dr. Abdullah Tuli

Epigenetik ve Kanser. Tayfun ÖZÇELİK Bilkent Üniversitesi Moleküler Biyoloji ve Genetik Bölümü

GENOM ve EVRİMİ. Yrd.Doç.Dr.Yosun MATER. Yrd.Doç.Dr.Yosun MATER

RNAi Teknolojisinin Deneysel Aşamaları ve Tedavideki Geleceği

Seyhan Havzası Küresel İklim Değişikliği Etkileri İzlenmesi Sistemi WEB Tabanlı CBS Projesi

Elsevier ClinicalKey TM. Sık Sorulan Sorular. İçindekiler. ClinicalKey nedir? ClinicalKey e nereden erişebilirim?

İ. Ü İstanbul Tıp Fakültesi Tıbbi Biyoloji Anabilim Dalı Prof. Dr. Filiz Aydın

İnsan Mikrobiyom Projesi. Prof. Dr. Tanıl Kocagöz

Ders 10 - Diğer küçük kodlamayan RNA lar

1. ÜNİTE : HÜCRE BÖLÜNMESİ VE KALITIM

Neotektonik incelemelerde kullanılabilir. Deformasyon stili ve bölgesel fay davranışlarına ait. verileri tamamlayan jeolojik dataları sağlayabilir.

HAFTA III Bağlantı, Asosiyasyon, Haritalama

Moleküler Biyoloji ve Genetik Bölümü Boğaziçi Üniversitesi

KULLANICI REHBERİ. Sınırsız Bilgiye Kesintisiz Erişimin adresi

BİO 775 PROTEOMİK ve GENOMİK

Rekombinant DNA Teknolojisi-II

(ZORUNLU) MOLEKÜLER İMMÜNOLOJİ I (TBG 607 TEORİK 3, 3 KREDİ)

Uygulama 6. Transkripsiyon yönü. Ekzonlar (kodlama bölgeleri) Transkripsiyon. Sonlandırıcı kodon başlangıcı

12. SINIF KONU ANLATIMI 7 GENETİK MÜHENDİSLİĞİ VE BİYOTEKNOLOJİ ÇALIŞMA ALANLARI

TEMEL VETERĠNER GENETĠK

Kullanım Kılavuzu Eylül 2018

MOLEKÜLER BİYOLOJİ LABORATUVARI

DNA Tamiri ve Rekombinasyonu

12. SINIF KONU ANLATIMI 2 DNA VE RNA

Bilimsel İletişim ve Bibliyometri

UZAKTAN EĞİTİM MERKEZİ

GAZİ ÜNİVERSİTESİ MERKEZ KÜTÜPHANESİ

LABORATUVAR 4: ÖKARYOTİK HÜCRELER

Hücre içinde bilginin akışı

Non-coding RNA Molekülleri

Bilimsel İletişim ve Bibliyometri

Genetik Kavramlar Sekizinci baskıdan çeviri Klug, Cummings, Spencer


Algoritmalar. Arama Problemi ve Analizi. Bahar 2016 Doç. Dr. Suat Özdemir 1

Dağıtık Sistemler CS5001

SİSTEM BİYOLOJİSİ NEDİR?

YZM 5257 YAPAY ZEKA VE UZMAN SİSTEMLER DERS#6: GENETİK ALGORİTMALAR

Gezgin Satıcı Probleminin İkili Kodlanmış Genetik Algoritmalarla Çözümünde Yeni Bir Yaklaşım. Mehmet Ali Aytekin Tahir Emre Kalaycı

Bilgi Erişim Performans Ölçüleri

T.H. Morgan ve A.H. Sturtevant 1911

İNTERNET TARAYICISI ÜZERİNDE ÇALIŞABİLEN ELEKTRİK TALEP TAHMİNİ ANALİZ PROGRAMI

geniş kapsamlı özet doktorlar tarafından doktorlara referanslı doğruluk ve güvenirlikleri

springerlink.com SpringerLink

Biyoteknoloji ve Genetik I Hafta 12. Prokaryotlarda Gen İfadesinin Düzenlenmesi

Biochemistry Chapter 4: Biomolecules. Hikmet Geçkil, Professor Department of Molecular Biology and Genetics Inonu University

2. Histon olmayan kromozomal proteinler

FEN ve TEKNOLOJİ / GENETİK MÜHENDİSLİĞİ ve BİYOTEKNOLOJİ. GENETİK MÜHENDİSLİĞİ ve BİYOTEKNOLOJİ

KALITSAL MOLEKÜLÜN BİÇİMİ ve ORGANİZASYONU PROF. DR. SERKAN YILMAZ

ÜNİBİLGİ 26. Üniversitemizin yeni Kütüphane Otomasyon Programı olan e-libs in kullanımını tanıtacağız.

İnsan genom projesi ve yeni bilim alanları (genomik, proteomik)

GENAR Enstitüsü AB 6. Çerçeve Programı EPICURE Projesi

T.C. FIRAT ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ BİYOLOJİ BÖLÜMÜ. DNA nın Keşfinin 50. yılının ardından GENOM PROJELERİ YÜKSEK LİSANS SEMİNERİ

DNA TEKNOLOJİSİNİN GELİŞİMİ

VERİ TABANI YÖNETİM SİSTEMLERİ

BMJ JOURNALS. Gazi Üniversitesi Merkez Kütüphanesi

Yrd.Doç.Dr. Yosun MATER

Gazi Üniversitesi Merkez Kütüphanesi

Veritabanı Yönetimi Bilgisayarların. Keşfi Hedefler. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi

TC. İSTANBUL ÜNİVERSİTESİ ADLİ TIP ENSTİTÜSÜ İNSERSİYON/DELESYON (INDEL) MARKIRLARI VE TÜRKİYE POPULASYONU ARZU DÜVENCİ

TIBBĠ BĠLĠMLERE GĠRĠġ DĠLĠMĠ MĠKROBĠYOLOJĠ ANABĠLĠM DALI

Girişimsel Makaleler nasıl yazılır? Prof Dr Fatih Ağalar Genel Cerrahi Bölümü Departman Tarih

VEKTÖRLER Halime Nebioğlu

yönetimi vb. lisans ve yüksek lisans programlarındaki öğrenciler için kapsamlı bilgilenme imkânı sağlamaktadır.

Biyoteknoloji ve Genetik I Hafta 13. Ökaryotlarda Gen İfadesinin Düzenlenmesi

Bilimsel Araştırma Yöntemleri. Doç. Dr. Recep KARA

LYS ANAHTAR SORULAR #4. Nükleik Asitler ve Protein Sentezi

GENETİK TANI YÖNTEMLERİ. Prof.Dr.Mehmet Alikaşifoğlu

2 Ders Kodu: VPT Ders Türü: Seçmeli 4 Ders Seviyesi Doktora

Transkript:

BĐYOLOJĐK VERĐ TABANLARINA GĐRĐŞ Bu bölümde, Biyoenformatiğin, Moleküler Biyolojik araştırma alanlarında sıklıkla kullanılan uygulama alanlarından biri olan veri tabanlarını ve bu veri tabanlarında nasıl arama yapılması gerektiği ile ilgili çeşitli ipuçlarını açıklayacağız. Ancak bunlardan önce Biyoenformatik kavramından kısaca bahsetmemiz gerekmektedir. Biyoenformatik, Bilgisayar mühendisliği, Đstatistik ve uygulamalı Matematik alanlarındaki yaklaşımların ve yöntemlerin, biyolojik veri analizi için uygulanması olarak tanımlanabilir. Gelişen teknoloji ve Moleküler Biyoloji alanındaki ilerleyişle birlikte, araştırmacıların elinde büyük boyutlarda, deneysel veri birikmiştir ve artarak birikmeye devam etmektedir. Deneysel verinin hızlanarak çoğalması ile bu verilerin analizi, anlamlandırılması, ileri araştırmalar ve uygulamalar için hipotezler geliştirilmesi, Biyoenformatik disiplininin çalışma alanlarındandır. Daha önce bahsettiğimiz gibi, Biyoenformatik, yeni gelişen disiplinler-arası bir araştırma alanıdır. Biyoenformatik alanının, temel amacı, Moleküler Biyolojik verilerin idaresi ve analizine yönelik, veritabanlarının oluşturulmasını, algoritmaların geliştirilmesini, hesaplamalı ve istatistiki yöntemlerin ve yaklaşımların oluşturulmasını kapsamaktadır. Gelişen teknoloji ile beraber, moleküler biyoloji ve genetik alanında çalışan her biyologun bir dereceye kadar biyoenformatiksel yaklaşımları bilmesi gerekmektedir. Đnternetten kolayca erişilebilen, sıklıkla kullanılan, 3 tane genom veri tabanı vardır. Bunların haricinde, kullanılmakta olan ve farklı amaçlara hizmet eden birçok veri tabanına da ulaşmak mümkündür. The National Center for Biotechnology Information http://www.ncbi.nlm.nih.gov/ UCSC Genome Bioinformatics Site http://genome.ucsc.edu/ The Ensembl Project http://www.ensembl.org/index.html 20

Veri tabanlarının Karşılaştırılması NCBI En popüler olan ve sıklıkla kullanılan biyolojik veri tabanıdır. Barındırdığı bilgi yoğunluğu ve çeşidi bakımından en az Ensembl kadar zengin bir veri tabanıdır. Kullanıcıya sunulan belirtim tabloları ve bu tabloların görsel sunumu Ensembl a ve UCSC ye göre daha azdır. Entrez uygulaması ile NCBI ın içinde barındırdığı bilgiler birleştirilmiştir. Genomik bilgiler ile ilgili olan diğer veri tabanlarına veya uygulamalarına yönlendiren bağlantıları barındırmaktadır. Genom dizilerinin yanında protein yapı tahminlerini de içeren bir veri tabanıdır. UCSC Đlk genom taramasını sağlayan, veri tabanıdır Genomların basit bir dizi olarak görselleştirilmesi sayesinde, sıklıkla tercih edilen bir veri tabanıdır Her seviyeden kullanıcının rahatlıkla kullanabileceği, birçok belirtim seçeneği vardır ve bu belirtimleri grafiksel olarak incelemek mümkündür. BLAST uygulamasından daha hızlı ve daha iyi sonuç veren, BLAT dizi hizalamasına göre arama uygulamasını, içinde barındırır. USCS veri tabanı içindeki organizmaların, referans dizilimlerine ve oluşturulmakta olan dizilimlere ulaşılabilir. Genlerin ve dizilerin lokasyonlarını görsel olarak incelemek mümkündür. Diğer veri tabanlarına geçiş sağlayan bağlantıları barındırır 21

Ensembl Đçerdiği organizma sayısına göre ve içerdiği bilgiye göre geniş kapsamlı bir veri tabanıdır. Organizmaların genetik özelliklerinin yanı sıra, birçok uygulamayı da içinde barındırır. Kullanılması göreceli olarak zordur, belli bir tecrübe gerektirir, diğer veri tabanlarına göre göreceli olarak karmaşıktır. UCSC deki gibi direk olarak eklenebilecek kullanıcı odaklı belirtim seçenekleri azdır fakat ileri seviyedeki kullanıcıların görselleştirebilecekleri pek çok seçenek vardır, hatta kullanıcıların kendi özel belirtimlerini genom üstüne eklemesi mümkündür. Sıklıkla güncellenir ve yeni özellikler sıklıkla eklenmektedir. Đçinde barındırdığı bilgi yoğunluğu ve bilgi çeşitleri bakımından zengin bir veri tabanıdır. Genomik bilgiler ile ilgili olan diğer veri tabanlarına veya uygulamalara yönlendiren bağlantıları barındırmaktadır. Önemli Terimler: Nükleotit Nükleotit, bir fosfat, beş karbonlu bir şeker (pentoz) ve bir azotlu organik bazdan oluşan bir kimyasal bileşiktir. Nükleik asitlerin (DNA ve RNA) yapı taşlarını oluştururlar. Gen Protein veya fonksiyonel RNA üretilmesinden sorumlu olan ve çeşitli uzunluklarda olabilen DNA dizilerine denilmektedir. Đnsan genomunun %5 inin şu ana kadar genlerden oluştuğu bilinmektedir. Geri kalan kısım ise, görevleri henüz açıklanamamış olan, kodlama özelliği olmayan DNA olarak adlandırılır. 22

Genom Bir organizmanın sahip olduğu kalıtımsal materyalinin tümünü ifade eder (kodlanan DNA + kodlanmayan DNA). Ökaryot organizmalar için, kromozomlarında bulunan bütün DNA sekansı, bakteriler için genomik DNA da bulunan bütün DNA dizisi, virüsler için barındırdığı bütün DNA ve RNA, ilgili organizmanın genomu olarak ifade edilir. Genomiks Organizmaların, genomlarına odaklanan araştırma alanıdır. Organizmanın sahip olduğu bütün genleri veya foksyonel birimleri, birbirleriyle etkileşim halinde incelenmesini içeren bir araştırma alanıdır. STS (işaretlenmiş dizi bölgeleri) Đlgili organizmanın genomunda yeri ve dizi özellikleri bilinen yaklaşık olarak 200-500 baz çiftinden oluşan DNA dizilerine denmektedir. Dizi ve lokasyon bilgileri bilindiğinden dolayı genetik haritalama işlemlerinde, belirteç olarak kullanılmaktadır. EST (Đfade edilmiş dizi etiketleri) Bu diziler, bilinen bir genin ifade edilen, küçük kısımlarını belirtmektedirler. Đlgili genlerin cdna kütüphanelerinden elde edilirler, dolayısıyla protein kodlama görevi olan DNA nın kısımlarını belirtirler. EST dizileri, bilinmeyen genlerin belirlenmesi ve bu genlerin genomdaki yerlerinin tespit edilmesi gibi işlemler için sıklıkla kullanılmaktadır. Proteome: Proteom, genom tarafından ifade edilen bütün protein ürünlerini ifade etmektedir. Bir organizmanın proteomu veya hücrenin veya dokunun proteomu olarak ifade edilebilir. Daha ayrıntılı belirtmek gerekirse, belli şartlar ve uyarıcılar altında hücre tarafından ifade edilen bütün proteinleri ifade eder. Proteomiks: Belirli bir genom tarafından ifade edilen proteinleri bütünsel ve birbiriyle etkileşimlerini dahil ederek inceleyen araştırma alanıdır. Bu alan, protein düzeyinde, gen ifadesi örüntüleri protein ve genom ilişkileri, protein-protein etkileşimlerini, protein modifikasyonlarını vs. incelemektedir. 23

NCBI Alt Veri Tabanları PubMed PubMed, NCBI bünyesinde bulunan, yaklaşık 20 milyon atıflık biyomedikal literatürü barındıran, NCBI ın makale, kitap vb. ile ilgili bilgileri barındırdığı alt veri tabanıdır. PubMed linkinden, anahtar kelimeye göre bilimsel dergi, makale, kitap vb.aramalar yapılabilmektedir. Dahası, NCBI da yapılan özgün aramalarda ve çıkan sonuçlarda NCBI, PubMed linkine erişim sağlayan bağlantıları sunmaktadır. Örnek vermemiz gerekirse, NCBI bünyesinde gen arama işlemi yapılırken, NCBI ın sağladığı bağlantılarla, kolay bir şekilde ilgili gen ile ilgili yayınlara ulaşılması mümkündür. OMIM (Online Mendelian Inheritance in Man) OMIM bilinen insan genleri ve bu genlerin ilişkilendirildiği hastalık fenotip bilgisini barındıran NCBI alt veri tabanıdır. Sıklıkla güncellenmektedir. Đnsan genleri ve bu genlerin ilişkilendirildiği hastalıklar, hastalıkların özellikleri ve bu hastalıkların moleküler mekanizmaları ile ilgili birçok özet bilgiyi ve ilgili referansları barındırır. Nücleotide (Nükleotit Veri Tabanı) Nükleotit veri tabanı GenBank, Refseq, TPA ve PDB gibi çeşitli kaynaklardan toplanmış ve düzenlenmiş, DNA ve RNA dizi bilgilerini barındıran veri tabanıdır. Bu amaçla genom, gen, transkript dizi bilgisini barındırır. GSS Bölümü(Genome Survey Sequence) Bu bölümde barındırılan diziler, EST lere benzemektedir. GSS dizileri, karakterize edilmemiş, kısa parçalar halinde olan, genomik DNA parçalarının dizi bilgilerini belirtmektedir. Protein Đlgili gen ürünlerinin, ifade ettiği proteinlerin dizi bilgisini belirten bölümdür. Unigene Unigene bölümü, ilgili genlerin ve ifade edilen psödogenlerin (yalancı genler) ürünlerini, ifade edildikleri gen ismi altında toplayan bölümdür. Başka bir deyişle, bir geninin birden 24

fazla transkripti olabilir, Unigene bölümü bunun gibi birden fazla RNA ürünü olan genleri tek bir gen ismi adı altında belirtmektedir. Genome Bütünsel genom dizi bilgilerini barındırır. Structure Đlgili genlerin, belirttiği RNA ürünlerinin ifade ettiği proteinler ile ilgili yapı bilgilerini içermektedir. Taxonomy Taksonomi alt veri tabanı, genetik veri tabanlarında, en az bir protein veya nükleotit dizi bilgisi bulunan organizmaların Latince isimlerini ve evrimsel sınıflandırılmaları ile ilgili detaylı bilgileri barındırmaktadır. SNP (tek nükleotit varyasyonları) Đnsan genomunda ve diğer genomlarda, en sık rastlanan çeşitlilik, tek nükleotit polimorfizmleridir (SNP). Yaklaşık olarak, insan genomunda, her 100-300 bazda bir SNP lere rastlanmaktadır. SNP lerin sık olması ve diğer çeşitliliklere göre, kolay tanımlanmalarından dolayı, genom boyutunda ilişkilendirilme çalışmalarında sıklıkla kullanılmaktadırlar. NCBI SNP veri tabanı, insan ve diğer organizmaların genomunda bulunan SNP ler için kaynak görevi görmektedir. Bu amaçla belirlenen, varlığı ve ilişkisi doğrulanan SNP ler ile ilgili detaylı bilgileri barındırmaktadır. HomoloGene Ökaryot organizmalarda, gen olduğu kanıtlanmış ve belirtimi yapılmış genlerin, diğer organizmalardaki homolog eşlerini bulmaya yarayan, homolog arama sistemini ve homolog gen gruplarını içermektedir. RefSeq Veri tabanlarında birçok dizi birden fazla kez belirtilmiş ve gösterilmiştir. Sekans bilgileri için gereksiz fazlalığı olan gösterimleri engellemek ve bu belirtimleri düzenlemek için NCBI, RefSeq ikincil alt veri tabanını oluşturmuştur. Bu amaçla RefSeq bölümü, genomik DNA, 25

RNA ve protein dizi bilgileri için, geniş kapsamlı, düzenlenmiş ve gerekli olan sekans bilgilerini tekrar düzenlemiştir. Bir başka deyişle, Refseq bölümü, her bir DNA, RNA ve protein dizisi için doğruluğu kanıtlanmış ve kabul edilmiş sekans bilgilerini içerir. Accession number (Erişim Numarası) Erişim numarası veri tabanı araştırmalarında, sıklıkla kullanılan bir ifade şeklidir. Erişim numarası, her bir sekans kaydını belirten özgün gösterim şeklidir. Bir başka değişle veri tabanındaki her bir DNA dizisi, RNA dizisi ve protein dizisi için özgün erişim numaraları vardır. Eğer sorgulatılmak istenen nükleik asit dizisinin veya protein dizisinin erişim numarası elimizde mevcut ise, NCBI veri tabanında bu numara ile de arama yapabilmemiz mümkündür. Erişim numaraları harflerden ve numaralardan oluşur ve başındaki harflerin özelliğine göre, hangi çeşit molekül olduğu bilgisini de içinde barındırır. Erişimi numarası Molekül çeşidi Açıklama AC_123456 AP_123456 NC_123456 NG_123456 NM_123456 NP_123456 NR_123456 Genomik Protein Genomik Genomik mrna Protein RNA Analizi tamamlanmış, alternatif genomik DNA dizisini ifade eder. A harfi, alternatif kurulumu veya belirtimi ifade eder. Analizi tamamlanmış, alternatif protein dizi bilgisini belirtir. Bütünsel genomik molekülleri ifade eder (kromozomlar, organel DNA sı, plasmidler) Analizi ve belirtimi tamamlanmamış genomik bölgeleri ifade eder. Genlerin transkript ürünlerini ifade etmektedir (haberci RNA). Veri tabanlarında bulunan, mrna lar, aslında ilgili RNA ların cdna ya çevrilmiş hallerini belirtmektedir. Protein dizilerini ifade eder. Protein ifadesi olmayan RNA dizilerini belirtir (yapısal RNA lar, ifade edilmiş pseudogenler vs.) 26

NT_123456 NW_123456 XM_123456 XP_123456 XR_123456 YP_123456 ZP_12345678 Genomik Genomik mrna Protein RNA Protein Protein Bakteri yapay kromozomuna(bac) klonlanmış veya genom boyutunda rastgele dizileme metoduyla dizi bilgisi çıkartılmış genom dizilerini ifade eder. Bakteri yapay kromozomuna(bac) klonlanmış veya genom boyutunda rastgele dizileme metoduyla dizi bilgisi çıkartılmış genom dizilerini ifade eder. Genomik kontig sekansına göre, genom belirtim sürecinde, modellenmiş RNA dizilerini ifade eder.(protein ifade etme özelliği olan RNA ürünleri için) Genomik kontig sekansına göre, genom belirtim sürecinde, modellenmiş Protein dizilerini ifade eder. Genomik kontig sekansına göre, genom belirtim sürecinde, modellenmiş RNA dizilerini ifade eder.(protein ifade etme özelliği olmayan RNA ürünleri için) Protein ürünü mevcut olan ancak, ilgili transkript ile ilgili bilgisi olmayan, Protein dizilerini ifade eder. (Birincil olarak, bakteri, virüs ve mitokondri için kullanılır) Hesaplamalı ve tahminsel yöntemlerle belirlenmiş proteinleri ifade eder. BLAST Nükleotit ve protein dizilerinin, aynı organizma ile veya farklı organizmalar ile karşılaştırılması, moleküler biyoloji araştırmalarında, çeşitli amaçlar için sıklıkla kullanılmaktadır. Araştırmacılar dizi benzerlikleri ve dizilerin karşılaştırılması ile,yeni bulunmuş ve dizi bilgisi çıkartılmış genlerin görevlerini tahmin edebilmektedirler. Dahası, gen ailelerinin belirlenmesi, organizmalar arasındaki evrimsel ilişkilerin ortaya çıkartılması gibi birçok alanda dizi benzerliklerinden yararlanılmaktadır. BLAST uygulaması sorgulatılmak istenen protein veya nükleik asit dizisini, benzerlik kıstaslarına ve kendi içinde barındırdığı algoritmaya göre, veri tabanı içinde arayan bir dizi karşılaştırma programıdır. BLAST, sorgulatılan diziyi veri tabanı içindeki diğer dizilerle karşılaştırabildiği gibi kullanıcı tanımlı dizileri ikili olarak da karşılaştırabilmektedir. 27

Çeşitli amaçlar için BLAST seçenekleri mevcuttur; BLAST Türü Birinci sorgulama Đkinci sorgulama Blastn, megablast, tblastx Nükleotit Nükleotit Blastx Nükleotit Protein Tblastn Protein Nükleotit Blastp Protein Protein 28

Sorgulama işlemi için özel olarak ayrılmış olan alana, dizi bilgisi yazılarak, dizi bilgisi kopyalanıp yapıştırılarak ve erişim numaraları veya gen kimlik numaraları kullanılarak da yapılabilmektedir. Aşağıda ADAM23 geninin 1. RNA ürünü için gerçekleştirilen BLAST sorgulama sonuç sayfası örnek olarak verilmiştir. Grafiksel Özet (Graphical Summary) başlığı altında, sorgulatılan dizinin, BLAST arama sonuçları ile eşleştirilmiş şekli grafiksel olarak kullanıcıya sunulmuştur. Sorgulamaya verdiğimiz dizinin, benzerlik gösterdiği diğer diziler, en yüksek benzerlik gösterenden en az benzerlik gösterene doğru, yukarıdan aşağıya doğru sıralanmış bir şekilde kullanıcıya sunulmaktadır. 29

BLAST arama sonuçlarının karşılaştırılmasında önemli olan bazı parametreler vardır. Bu parametrelere ve bu parametreler arasındaki ilişki incelenerek, sonuçların güvenirliliği veya sorulan bilimsel soruya göre, arama sonuçlarını seçmek mümkündür. BLAST arama sonuçlarının karşılaştırılmasında kullanılan değişkenler; Maksimum Skor (Maximum Score) Toplam Skor (Total Score) Sorgulama Kapsamı (Query Coverage) E-Değeri (E-Value) Maksimum Benzerlik (Maximum Identity) Bu parametrelerin hepsi sonuçların değerlendirilmesi için kullanılmaktadır. Ancak bunlar arasındaki en önemli parametre E-değeridir. E-değeri, yaptığımız hizalamaların şans eseri olma ihtimalinin hesaplanması ile sonuçların istatistiksel önemini değerlendirmemizi sağlayan bir parametredir. Bu durumda E-değerimiz 0 a eşit ise, sorguladığımız dizi, çıkan sonuç ile bire bir eşleşmiş demektir ve bu eşleşmede şans faktörü 0 dır. Sorgulama kapsamı, sorgulatılan dizi ile diğer dizilerin uzunluk bazında eşleşme oranını belirtmektedir. Maksimum benzerlik ise, sorgulatılan dizi ile diğer diziler arasındaki dizi benzerliğinin yüzde olarak oranını belirtmektedir. Çıkan sonuçların değerlendirilmesinde, En düşük E-değerine sahip olan, maksimum benzerliği ve sorgulama kapsamı en yüksek olan sonuçlara öncelik verilir. Ancak, BLAST sonuçlarının değerlendirilmesi ve seçimi, sorulan bilimsel biyolojik soruya göre değişiklik gösterebilmektedir. 30

Referanslar: The National Center for Biotechnology Information http://www.ncbi.nlm.nih.gov/ The NCBI Handbook http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=handbook The Genome User's Guide Nature Genetics Supplement September 2003 issue 31