- PDF Free Download

Transkript

1 ANKARA ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ DOKTORA TEZİ AİLE TEMELLİ İLİŞKİLENDİRME ÇALIŞMALARINDA SINIRLI ÖRNEKLEM BOYUTU İÇİN İSTATİKSEL SİNYAL İŞLEME ALGORİTMALARININ KULLANILMASI Farid RAJABLI ELEKTRONİK MÜHENDİSLİĞİ ANABİLİM DALI ANKARA 2011 Her hakkı saklıdır

2 ÖZET Doktora Tezi AİLE TEMELLİ İLİŞKİLENDİRME ÇALIŞMALARINDA SINIRLI ÖRNEKLEM BOYUTU İÇİN İSTATİSTİKSEL SİNYAL İŞLEME ALGORİTMALARININ KULLANILMASI Farid RAJABLI Ankara Üniversitesi Fen Bilimleri Enstitüsü Elektronik Mühendisliği Anabilim Dalı Danışman: Doç. Dr. H. Gökhan İLK Bu tez kapsamında aile temelli ilişkilendirme çalışmalarında yaşanan örneklem boyutu sorununun çözümü için ardışık olasılık oran testi (AOOT) ve permütasyon temelli birleşik kalıtımda dengesiz aktarım testi (B-KDAT) önerilmiştir. İlk aşamada,anne-baba-çocuk üçlüsü genotip verisi için, AOOT ile kalıtımda dengesiz aktarım testi (KDAT),birsimülasyon verisi üzerinde uygulanarak karşılaştırılmıştır. KDAT, tekli nükleotid polimorfizmleri (SNP)iki gruba sınıflandırırken (hastalıkla ilişkili olan ve ilişkili olmayansnp ler), AOOT elde edilen bulguları sadece ilişkili veya ilişkisiz diye sınıflandırmamış, üçüncü bir bölge olarak bir gri bölge oluşturmuş, karar veremediği bulguları oraya atarak daha fazla örnek sayısına ihtiyaç duyduğunu belirtmiştir.duyarlılık, belirlilik ve doğruluk değerleri, her iki yöntem için de hesaplanmış ve AOOT nin tüm bu ölçütlerde her anne-baba-çocuk üçlü sayısı için KDAT den üstün olduğu gösterilmiştir. İkinci aşama olarak, anne-baba-çocuk üçlüsü ve anne-çocuk/baba-çocuk ikilisigenotip verilerini içine alabilen permütasyon temelli B-KDAT testi, yeni birsimülasyon verisi üzerine uygulanmış ve testin istatistiksel güç analizi yapılmıştır. Bu test istatistiğinin, küçük örneklem boyutunda (50 üçlü ve 30 ikili) % 80 üzerinde bir istatistiksel güce sahip olduğu görülmüştür. Mayıs 2011, 74 sayfa Anahtar Kelimeler: İlişkilendirme, Tekli Nükleotid Polimorfizmi, Kalıtımda Dengesiz Aktarım Testi, Ardışık Olasılık Oran Testi, Simülasyonçalışması i

3 ABSTRACT Ph.D. Thesis APPLICATION OF STATISTICAL SIGNAL PROCESSING ALGORITHMS IN SMALL SAMPLE SIZE FAMILY BASED ASSOCIATION STUDIES Farid RAJABLI Ankara University Graduate School of Natural and Applied Sciences Department of Electronic Engineering Supervisor: Assoc. Prof. Dr. H. Gokhan ILK In this thesis, a sequential probability ratio test (SPRT) and permutation based combined transmission disequilibrium test (C-TDT) are proposed to overcome the problem of limited number of samples in family based association studies. Firstly, for case-parent trios, the results of SPRT are compared with the ones obtained from the traditional transmission disequilibrium test (TDT) through simulated data. While TDT classifies single nucleotide polymorphisms (SNPs) into only two groups (SNPs associated with the disease and those not associated with the disease), SPRT has the flexibility of assigning SNPs to a third group that is SNPs for which we do not have enough evidence and for that reason we need to keep on sampling. It is shown that SPRT results in better specificity, accuracy and sensitivity values for classifying SNPs when compared to TDT. Secondly, a simulation study is carried out to determine the power of the permutation-based C-TDT statistic, which incorporates the genotype information from both case-parent trios and case-parent pairs.especially, it is observed that 50 trios and 30 pairs are enough in size to reach a 80% amount of statistical power. May 2011, 74 pages Key Words :Association, SingleNucleotidePolymorphism, TransmissionDisequilibrium Test, SequentialProbabilityRatio Test, Simulationstudy ii

4 TEŞEKKÜR Doktora eğitimimin boyunca bilgi, öneri ve yardımlarını esirgemeyerek, önerileri ile bana yol gösteren danışman hocam sayın Doç. Dr. H. Gökhan İLK e (Ankara Üniversitesi Elektronik Mühendisliği Anabilim Dalı) derin saygılarımı sunar ve teşekkür ederim. Tez çalışmam boyunca,maddi manevi desteklerini esirgemeyen değerli bölüm başkanımız sayın Doç. Dr. Ziya TELATAR a (Ankara Üniversitesi Elektronik Mühendisliği Anabilim Dalı), tezimin şekillenmesinde aktif rol oynayan ve bilimsel yaklaşımı kendilerinden öğrenmeye çalıştığım değerli hocalarım sayın Doç. Dr. Hilal ÖZDAĞ a (Ankara Üniversitesi Biyoteknoloji Enstitüsü) ve sayın Yrd. Doç. Dr. Özlem İLK e (Orta Doğu Teknik Üniversitesi İstatistik Bölümü) teşekkürlerimi sunarım.çalışmalarıma katkıda bulunandilayçiglidağ DÜNGÜL e (Ankara ÜniversitesiBiyoteknoloji Enstitüsü) ve aynı zamanda çalışmamsırasında büyük yardımları dokunan ve önemli katkılarda bulunan Gül İNAN a (Orta Doğu Teknik Üniversitesi İstatistik Bölümü) ve Enver KAYAASLAN a (Bilkent Üniversitesi Bilgisayar Mühendisliği Anabilim Dalı) teşekkürü borç bilirim. Sadece eğitim hayatım müddetince değil, iyi ve kötü günde her daim yanımda olan, maddi ve manevi desteklerini esirgemeyen, fedakârlık ve hoşgörülerinden dolayı anneme, babama, kızıma ve tabii ki eşime minnettar olduğumu belirtir ve teşekkür ederim. Farid RAJABLI ANKARA, Mayıs 2011 iii

5 İÇİNDEKİLER ÖZET... i ABSTRACT... ii TEŞEKKÜR... iii SİMGELER DİZİNİ... v ŞEKİLLER DİZİNİ... vi ÇİZELGELER DİZİNİ... vii 1. GİRİŞ İLİŞKİLENDİRME ÇALIŞMALARINDA KURAMSAL TEMELLER Gen Haritalama ve Genlerin Lokalizasyon Tespiti Bağlantı ve İlişkilendirme Analizleri Moleküler Belirteçler Tek Nükleotid Polimorfizmi Kompleks Hastalıklar İlişkilendirme Çalışmaları Aday gen ilişkilendirme çalışmaları Genom boyu ilişkilendirme çalışmaları Popülasyon Temelli Genom Boyu İlişkilendirme Çalışmaları Aile Temelli Genom Boyu İlişkilendirme Çalışmaları KALITIMDA DENGESİZ AKTARIM TESTİ (KDAT) İlişkilendirme Çalışmalarında Kullanılan Geleneksel Yöntem KDAT Üzerine Temel Bilgiler Kalıtımda Dengesiz Aktarım Testin Bir Örnek Üzerinde Uygulaması KDAT İstatistiksel Güç Analizi ve Bulgular ARDIŞIK TEST İlişkilendirme Çalışmaları için Önerilen Özgün Bir Yöntem Ardışık Olasılık Oran Testi (AOOT) Üzerine Temel Bilgiler AOOT için Örneklem Boyutu Karşılaştırması Gereç Olarak KullanılanSimülasyon Verisi için Geliştirilen Algoritma AOOT ve KDAT TestlerinSimülasyon Verisi Üzerine Uygulanması ve Bulgular iv

6 5. BİRLEŞİK KALITIMDA DENGESİZ AKTARIM TESTİ VE PERMÜTASYON TESTLERİ Birleşik Kalıtımda Dengesiz Aktarım Test İstatistiği ve Permütasyon Testleri Temel Bilgiler Permütasyon Temelli B-KDAT için Simülasyon Çalışması ve İstatistiksel Güç Analizi SONUÇ KAYNAKLAR ÖZGEÇMİŞ v

7 KISALTMALAR DİZİNİ A AHT AOOT B-KDAT CNV DN DNA DP G GRO GWAS HN HP KDAT LD MATLAB RFLP ROC S SNP STR T VNTR Adenin Ardışık Hipotez Testi Ardışık Olasılık Oran Testi Birleşik Kalıtımda Dengesiz Aktarım Test Varyasyon Kopya Sayısı (CopyNumberVariation) Doğru Negatif Deoksiribonükleik Asit (DeoxyribonucleicAcid) Doğru Pozitif Guanin Genotipik Risk Oranı Genom Boyu İlişkilendirme Çalışmaları (Genom WideAssociationStudy) Hatalı Negatif Hatalı Pozitif Kalıtımda Dengesiz Aktarım Testi Bağlantı Dengesizliği (LinkageDisequilibirum) Matris Laboratuarı (MatrixLaboratory) RestriksiyonParça Uzunluk Polimorfizmi (RestrictionFragmentLengthPolymorphism) Receiver Operating Characteristic Sitozin Tek Nükleotid Polimorfizmi (Single NucleotidePolymorphism) Kısa Tekrarlayan DNA Dizileri (Short Tandem Repeat) Timin Değişken Sayıda Ardı Ardına Tekrarlayan DNA Dizileri (VariableNumber of Tandem Repeat) vi

8 ŞEKİLLER DİZİNİ Şekil 2.1 Mayoz bölünme sırasında homolog kromozomların birbirileriyle karşılıklıparça değişimi... 6 Şekil 2.2 DNA dizisi üzerinde bireysel varyasyon olan SNP... 9 Şekil 2.3 Kromozom üzerinde genlerin ve SNP lerin yerleşimi Şekil 2.4 Aile temelli ilişkilendirme çalışmalarında kullanılan anne-babaçocuküçlüsü Şekil 3.1 Ebeveynlerden hasta çocuğa aktarılan ve aktarılmayan alellerin toplamsayılarını gösteren KDATtablosu Şekil 3.2 Az veya orta düzeyde ilişki gösteren SNP ler için hesaplanan doğru pozitifyüzdeleri Şekil 3.3 Az veya orta düzeyde ilişki gösteren SNP ler için hesaplanan hatalı negatifyüzdeleri Şekil 3.4 Yüksek düzeyde ilişki gösteren SNP ler için hesaplanan doğru pozitifyüzdeleri Şekil 3.5 Yüksek düzeyde ilişki gösteren SNP ler için hesaplanan hatalı negatif yüzdeleri Şekil 4.1 AOOT farklı τ 1 değerleri için %0.1 1.Tip hata ile %80 istatistiksel güç eldeedebilmesi için gereken maksimum, ortalama, ortanca ve minimum sayıda beklenen örneklem boyutu sayısı(örneklem boyutu τ 1 = 0.5için sonsuz değerini almaktadır) Şekil 4.2 AOOT ve KDAT testleri için yapılan simülasyon çalışmasının akış diyagramı Şekil 4.3 Ardışık olasılık oran testi ile kalıtımda dengesiz aktarım testinin artan üçlüsayısına göre doğruluk yüzdeleri Şekil 4.4 Ardışık olasılık oran testi ile kalıtımda dengesiz aktarım testinin, yüksekdüzeyde ilişkilendirme gösteren veriler için artan üçlü sayısına göre duyarlılık yüzdeleri Şekil 4.5 Ardışık olasılık oran testi ile kalıtımda dengesiz aktarım testinin, az veya ortadüzeyde ilişkilendirme gösteren veriler için artan üçlü sayısına göre duyarlılık yüzdeleri Şekil 4.6 Ardışık olasılık oran testi için anlamlı olmayan ilişkilendirme gösteren veriler için artan üçlü sayısına göre belirlilik yüzdeleri Şekil 4.7 Kalıtımda dengesiz testi için anlamlı olmayan ilişkilendirme gösteren veriler için artan üçlü sayısına göre belirlilik yüzdeleri Şekil 4.8 Ardışık olasılık oran testi ve kalıtımda dengesiz aktarım testi için ROCeğrileri Şekil 5.1 Sadece bir taşıyıcı çocuğu olan üç farklı aile grubu Şekil 5.2 Permütasyon temelli B-KDAT uygulamasının akış diyagramı vii

9 ÇİZELGELER DİZİNİ Çizelge 3.1KDATdört gözlü tablosu Çizelge 3.2 KDATanalizinde kullanılacak genotip verileri Çizelge3.3 Anne ve babanın genotiplerine göre olası çocuk genotipleri Çizelge 3.4 İlişki göstermeyen, az ve orta düzeyde ilişki gösteren ve yüksek düzeydeilişki gösterensnp lerin trio sayısına göre sıra ile doğru negatif vehatalı pozitif; doğru pozitif ve hatalı negatif; doğru pozitif ve hatalı negatif yüzde oranları Çizelge 4.1b ve c nin, 1 değerini alabilmeleri için 0.1 ile 0.9 aralığında değişenolasılıklar için üretilen 45 durum Çizelge 4.2 α=%0.1 ve β=%20için iki analiz testin üçlü sayısına göre genel doğruluk tablosu Çizelge 4.3 Yüksek düzeyde ilişkilendirme gösteren SNP lerin üçlü sayısına göre doğru pozitif, hatalı negatif ve duyarlılık yüzde oranları Çizelge 4.4 Az veya orta düzeyde ilişkilendirme gösteren SNP lerin üçlü sayısına göredoğru pozitif, hatalı negatif ve duyarlılık yüzde oranları Çizelge 4.5 İlişkilendirme göstermeyen SNP lerin üçlü sayısına göre doğru negatif, hatalı pozitif ve belirlilik yüzde oranları Çizelge 5.1 Herhangi bir SNP te anne ve babanın genotipinin gözlemlenmesiüzerine, aynı SNP te çocuğun genotipinin alabileceği değerler Çizelge 5.2Herhangi bir SNP teanne-baba-çocuk üçlüsü genotiplerinin, B-KDAT testistatistiğinde, T ve NT terimlerine olan katkıları Çizelge 5.3Herhangi bir SNP te anne veya babanın genotipinin gözlemlenmesiüzerine, aynı SNP te çocuğun genotipinin alabileceği değerler ve bu genotiplerinb-kdat test istatistiğinde, N, N ve terimlerine olankatkılar N Çizelge 5.4 Örneklem büyüklüklerine göre güç ve hesaplanmış anlamlılık düzeyleri viii

10 1. GİRİŞ Bu yüzyılın başlarında, İnsan Genomu Projesinin büyük ölçüde tamamlanması ile ortaya koyduğu açılım, bilim dünyasında büyük bir heyecanla karşılandı. Başlığı ile sınırlı kalmayıp sadece insan genomunu değil, diğer canlıları da içermesi genetik çalışmalarda bir devrim niteliği taşımaktadır. Bu gelişme o kadar büyük bir yankı uyandırmıştı ki, dönemin Amerika Birleşik Devletleri başkanı Bill Clinton ve İngiltere başbakanı Tony Blair,İnsan Genom Projesini Yaşamın Sırları Çözüldü sloganı ile 2000 yılının Haziran ayında dünyaya duyurmuşlardır. Henüz başlangıcın sonuna gelindiği bilinen bu proje ile DNA üzerinde yer alan baz dizinlerinin büyük kısmı öğrenilmiştir. 3.2 milyar baz çiftinden oluşan insan çekirdek DNA dizisinin çıkarılması ile bugün ilk aşaması tamamlanmakta olan bir sürecin başında bulunuyoruz. Genomun işlevselliği, yani hangi dizilerin hangi proteini kodladıkları, bunların yerleri ve çalışma yolları, birliktelikleri, kullanılabilirlikleri, protein protein etkileşimleri öğrenilmedikten sonra bu bilgi ham haliyle çok fazla bir şey ifade etmemektedir. Görüldüğü üzere elde edilen büyük ölçekteki verilerin boyutu her geçen gün artmakla beraber onların değerlendirilmesi ve analizlerinin yapılabilmesi için yeni yöntem ve araçların geliştirilmesi de aynı derecede önem arz eden bir mesele olarak karşımıza çıkmaktadır. Bu yönde geliştirilen DNA mikroçip teknolojisi ile aynı anda binlerce gene ilişkin gen ifade verileri ve milyonu aşkın moleküler belirteçler incelenebilmektedir. Böylece elde edilen büyük ölçekteki verilerin veri tabanında depolanması, veri ön işleme yöntemleri kullanılarak verilerin düzenlenmesi, uygun yöntemlerle analiz edilmesi ve gereksinim duyulursa yeni istatistiksel analiz yöntemlerinin geliştirilmesi, genom çalışmalarında sonuca gidilmesinde çok büyük önem arz etmektedir. Bu tez çalışmasına, mikroçip teknolojisi ile geliştirilen ve binlerce moleküler belirtece sahip olan mikro dizin yongaların düzgün veri verebilmeleri için kullanılan ön işleme algoritmaların tetkiki ile başlanmıştır. İlk olarak, aile temelli ilişkilendirme çalışmaları kapsamında elde edilen verilerin istatistiksel analizi için kullanılan kalıtımda dengesiz 1

11 aktarım testi incelenmiş ve simülasyon çalışmaları ile elde edilen veriye uygulanması geliştirilen bir yazılım ile sağlanmıştır. Bir sonraki aşamada, kalıtımda dengesiz aktarım testi uygulamasında karşılaşılan güvenli sonuç için örneklem boyutu kısıtlamasını aşabilmek için, istatistiksel sinyal işlemede kullanılan, ardışık olasılık oran testi önerilmiştir. Daha sonra, hem kalıtımda dengesiz aktarım testi hem de özgün bir yaklaşım olan ardışık olasılık oran testi üretilen simülasyon verisi aracılığıyla sınanmış ve sonuçlar karşılaştırılarak, tartışılmıştır. Son olarak, aile temelli ilişkilendirme çalışmalarında örnek veri olarak kullanılan, anne-baba-çocuk üçlüve anne-çocuk/babaçocuk ikili, genotip verisini beraber istatistiksel analiz edebilmek içinpermutasyon temelli birleşik kalıtımda dengesiz aktarım testi kullanılmıştır. Bu tez kapsamında permutasyon temelli birleşik kalıtımda dengesiz aktarım testin I. Tip hata ve istatistiksel gücü simülasyon çalışması ile elde edilen veri üzerinde bu testin uygulanması ile farklı örneklem boyutları için tespit edilmiştir. Bu tezi oluşturan bölümlerin bir özeti verilirse, Bölüm 2 de, tezin önemi ve amacının anlaşılabilmesi için ilişkilendirme çalışmaları kapsamında gerekli olan kuramsal altyapı sunulmaktadır. İlk önce genlerin lokalizasyon tespiti üzerinde durulmaktadır. Daha sonra lokalizasyon tespiti için kullanılan bağlantı analizleri ve ilişkilendirme çalışmaları anlatılmaktadır. Ardından, genomda lokalizasyonu bilinen varyasyonlardan olan moleküler belirteçler tanıtılmakta ve çok yaygın olarak görünen moleküler belirteçlerden tekli nükleotid polimorfizmi değerlendirilmektedir. Bu aşamadan sonra, kompleks hastalıklar ve ilişkilendirme çalışmaları beraber incelenmekteve ilişkilendirme başlığı altında aday gen ve genom boyu çalışmaları ayrı ayrı anlatılmaktadır. En sonunda, genom boyu ilişkilendirme çalışmaları kapsamında yapılan popülasyon temelli ve aile temelli çalışmalara ayrı başlıklar altında yer verilerek izahı yapılmaktadır. Bölüm 3 de, öncelikle kalıtımda dengesiz aktarım testinin uygulanabilmesi ile ilgili genel bilgiler verilmektedir. Daha sonra bir makaleden alınmış gerçek bir örnek üzerinde uygulanması anlatılmaktadır. Ardından, yapılan simülasyon çalışması ve algoritması kısaca anlatılmaktadır. Son olarak, simülasyon çalışması ile üretilen, 30 ile 2

12 200 arasında değişen, anne-baba-çocuk üçlü genotip verisi üzerinde kalıtımda dengesiz aktarım testi uygulanmakta ve elde edilen sonuçlar yorumlanmaktadır. Bir sonraki bölümde, ilk önce bu tez çalışması ile aile temelli ilişkilendirme çalışmalarına uygulanan ardışık olasılık oran testi tanıtılmaktadır. Daha sonra ardışık olasılık oran testi için örneklem boyutu karşılaştırması yapılmakta ve önerilen testin istatistiksel gücü simülasyon çalışması ile ölçülmektedir. Bölümün bitiminde, kalıtımda dengesiz aktarım testi ile ardışık olasılık oran testinperformansı,simülasyon çalışması ile üretilen veri üzerinde uygulayıpduyarlılık, belirlilik ve doğruluk değerlerinhesaplanması ile değerlendirilmekte ve karşılaştırılmaktadır. Bölüm 5 de, öncelikle anne-baba-çocuk üçlüsü ve anne-çocuk/baba-çocuk ikilisi genotip verisini beraber analiz edebilen permütasyon temelli birleşik kalıtımda dengesiz aktarım testi hakkında temel bilgiler verilmektedir. Ardından, yeni bir simülasyon çalışması ile elde edilen veriler üzerinde bu metodun uygulanmakta vefarklı örneklem boyutları için I. Tip hata ile istatistiksel güç tespiti yapılmaktadır. Sonuç bölümünde, bu tez kapsamında çalışılan analiz metotları kısaca bir daha anlatılmaktadır.elde edilen sonuçların karşılaştırılması yapılarak bu teze özgün olarak önerilmiş ardışık olasılık oran testin, küçük örneklem boyutlu veriler için güvenli bir şekilde kullanılabileceği belirtilmektedir. Permütasyon temelli birleşik kalıtımda dengesiz aktarım testi için yapılan istatistiksel güç analizine vurgu yapılarak, hem annebaba-çocuk üçlü hem de anne-çocuk/baba-çocuk ikili verilerine sahip olunduğunda bu metodun kullanımı önerilmektedir. Özgünlük iddiaları (claims of originality) Aile temelli ilişkilendirme çalışmaları esnasında elde edilen verilerin analizi için kullanılan geleneksel metotlarda karşılaşılan en büyük sorunlardan biri olan, yeterli sayıda veriye ulaşılamadığı için güçlü bir analiz yapamama, bu tez çalışması kapsamında önerilen ardışık olasılık oran testiile aşılmıştır. Bu 3

13 çalışma bir yayın haline getirilerek European Journal of Human Genetics dergisinde (DOI: /ejhg , 2011) elektronik olarak yayınlanmıştır. Aile temelli ilişkilendirme çalışmalarında, anne-baba-çocuk üçlüsünden oluşan ailelerin yanında, anne veya babadan sadece bir tanesinin olduğu, anne-çocuk ikilisi ve baba-çocuk ikilisinden oluşan ailelerin de gözlenmesi mümkündür. Bu çalışmaya özgün olarak, anne-baba-çocuk üçlüsündenve anne-çocuk/babaçocuk ikililerinden gelen bilgiyi ortak olarak değerlendirmek için önerilen permütasyon temelli birleşik kalıtımda dengesiz aktarım testi içinsimülasyon çalışması ile I. Tip hata ile istatistiksel güç tespiti yapılmıştır. Bu çalışma sayesinde, aile temelli ilişkilendirme çalışmaları yürüten araştırmacılar, birleşik kalıtımda dengesiz aktarım testi kullandıklarında hem elde ettikleri sonuçların istatistiksel gücü hem de istedikleri istatistiksel güce ulaşmak için gerekli örneklem boyutu hakkında fikir sahibi olmuş olacaklar. 4

14 2. İLİŞKİLENDİRME ÇALIŞMALARINDA KURAMSAL TEMELLER 2.1 Gen Haritalama ve Genlerin Lokalizasyon Tespiti Genetik haritalama, genlerin kromozomlar üzerinde bulunduğu yerlerin (lokus) gösterilmesidir. Böylece insan genomunun anatomisi ortaya çıkarılır. Genetik haritalama, kısaca genomun matematiksel analizi olarak bilinir ve genlerin kromozomlar üzerindeki lokalizasyonlarının bulunmasında moleküler biyolojik yöntemler ve bir dizi karmaşık istatistiksel analizler kullanır. Özellikle genetik nedenli hastalıkların lokalizasyonlarının saptanması alanında son derece verimli bir metot olarak karşımıza çıkmaktadır. Metot en genel anlamı ile lokalizasyonu aranan gen ile lokalizasyonu bilinen bir genetik belirleyicinin ( marker ) kuşaklar arasında birlikte kalıtılmasının test edilmesi esasına dayanır(akarsu ve Lüleci 2009). Genetik haritalama özellikle kalıtımsal hastalıklara yol açan genlerin kromozomlar üzerindeki lokalizasyonlarının saptanmasında yaygın olarak kullanılmaktadır. Genetik haritalamada nirengi noktası olarak kullanılan genetik belirteçler, her bireyin genomunda bulunan DNA dizisi üzerinde tanımlanabilen genetik varyasyonlardır. Bu belirteçler genomda belli aralık ve sıklıklarla bulunması bunların genomun topoğrafyasının belirlenmesinde etkin bir şekilde kullanılmalarını sağlamıştır. Genetik belirteçler bu özellikleri ile hastalık genlerinin tespitinde kullanılabilen genomik varyasyonlardır. Mayoz bölünme sırasında, kromozomlar biri anneden diğeri babadan gelen homolog kromozomların birbirileriyle karşılıklı parça değişimine uğrarlar. Bu esnada, birbirine yakın genler çoğunlukla bir arada giderken, birbirinden uzak olan genler ise bağımsız düzenlenme kuralına göre, bir arada gidebilecekleri gibi çoğunlukla ayrılırlar. Bu mekanizma ile gerçekleşen parça değiş-tokuşu, rekombinant denilen yeni alel (kromozom çifti üzerine iki genin karşılıklı yerleşmesidir) kombinasyonlarının oluşmasına neden olarak, genetik çeşitliliğe katkıda bulunur (Klug 2000). Şekil 2.1 de bu mekanizma gösterilmektedir. 5

15 Şekil 2.1 Mayoz bölünme sırasında homolog kromozomların birbirileriyle karşılıklı parça değişimi Yukarıdaki bilgiler ışığında, aranılan (hastalıkla ilişkili olabileceğini düşünülen) gen lokalizasyonunu bilinen moleküler belirtece çok yakınsabirlikte kalıtlanacaklarından, aranılan genin yeri de bulunmuş olacaktır hipotezi ile araştırmacılar hastalıklarla ilgili hedef genleri bulabilmektedirler. 2.2 Bağlantı ve İlişkilendirme Analizleri Hastalıklarda yatkınlık gen lokalizasyonunun tespiti için farklı fakat ilgili iki ana analiz yöntemi kullanılmaktadır. Bunlar bağlantı (linkage) ve ilişkilendirme (association) analizleridir. Bağlantı analizi, genomda belirli bir bölgenin kalıtımı ile hastalığa yatkın ailelerde hastalığın kalıtımı arasında istatistiksel ilişki tanımlar. Bağlantı analizleri, mendel kalıtımı gösteren hastalıklara neden olan genleri rahatlıkla saptayabilirken, etkisi zayıf olan ve birçok genin etkisi ile gelişen kompleks hastalıklarda gen(ler) saptamasında 6

16 yetersiz kalmaktadır. Astım, kanser, diyabet ve kalp hastalıkları gibi kompleks hastalıklarda, ancak kısıtlı bir başarı ile bağlantı analizi gen tanımlama yapabilmektedir. Dolayısıyla, kalıtım modeli bilinmeyen genetik etkenlerin işe karıştığı kompleks hastalıkların incelenmesi ve araştırılmasında, ilişkilendirme çalışmaları devreye girmektedir. İlişkilendirme çalışmaları; kalıtım modeli bilinmeyen, genetik etkenlerin işe karıştığı kompleks hastalıkların incelenmesinde ve bu hastalıklarla ilişkili olabilecek yeni aday genlerin lokalize edilmesinde kullanılmaktadır. Bu çerçevede ilişkilendirme çalışmalarında, genetik varyasyonun hastalıklı bireydeki frekansı ile kontrol bireydeki frekansı karşılaştırılmaktadır (Pharoah vd. 2004). 2.3 Moleküler Belirteçler Moleküler belirteçler genomda lokalizasyonu bilinen, mutasyon veya polimorfizm kapsamında meydana gelen varyasyonlardır. Sıklıkla kullanılan moleküler belirteçler arasında mikrosatellitler, restriksiyon parça uzunluk polimorfizmleri (Restriction Fragment Length Polymorphism, RFLP), değişken sayıda ardı ardına tekrarlayan DNA dizileri (Variable Number of Tandem Repeat, VNTR), kısa tekrarlayan DNA dizileri (Short Tandem Repeat, STR), tek nükleotid polimorfizmi (Single-Nucleotide Polymorphism, SNP) ve kopya sayısı varyasyonları (Copy Number Variation, CNV) sayılabilir. Moleküler belirteçler, organizmaların genetik haritalarının oluşturulmasında ve hastalığın genetik nedenleri arasındaki ilişkiyi açıklamada kullanılmaktadır. Ayrıca, moleküler belirteçler bir ailenin nesiller boyunca kalıtılan özelliklerini izleme olanağı vermektedir. Kromozom üzerinde birbirine yakın olan DNA dizileri beraber kalıtılırlar. Bundan dolayı, moleküler belirteçler ilişkilendirme çalışmalarında, hastalıkla daha önce 7

17 ilişkilendirilmemiş bir geni lokalizeetme potansiyeline sahiptir. Araştırmacılar kompleks hastalıklarda hedef genleri bulmak için, genellikle ilgili genlere yakın olan ve birlikte kalıtılan genetik belirteçleri takip etmektedirler. Keza, tek genin sorumlu olduğu kalıtsal hastalıklarda, bağlantı analizi ile tespiti çalışılan sorumlu genin lokalizasyonunda yine moleküler belirteçlerden faydalanılmaktadır (Brown vd. 2006). Genom haritasının çıkarılması, genlerin hastalıklarla ilişkilendirilmesi ve lokalizasyonlarının belirlenmesi gibi amaçlarla, yukarıda bahsi geçen (mikrosatellitler, RFLP, VNTR, STR) DNA temelli moleküler belirteçler, uzun yıllardır kullanılmaktadır. Ancak bu belirteçlerin gerek çözünürlüklerinin sınırlı olması ve gerekse yüksek işlem hacimli analizlere uygun olmamaları yeni nesil moleküler belirteçlerin keşfini zaruri kılmakta idi. Bu bağlamda genomda çok yaygın olarak(her birkaç yüz baz çiftinde bir) bulunan, dolayısı ile çözünürlükleri oldukça yüksek olan SNP lerin kullanımı gündeme geldi. Bu belirteçler, moleküler belirteçler içerisinde çok yaygın kullanım alanı bularak değerli bir hal aldı. 2.4 Tek Nükleotid Polimorfizmi DNA dizisi üzerinde bireysel varyasyonlar görülmektedir. DNA dizisini oluşturan adenin (A), guanin (G), sitozin (S) ve timin (T) baz çiftinden birinin diğer baz çifti ile değişmesi tek nükleotid polimorfizmi (SNP) olarak adlandırılır. Şekil 2.2 de, 1. durumdaki baz çiftinden birinin (C-G), 2. durumda başka bir baz çifti (A-T) ile nasıl değiştiği gösteriliyor. 8

18 Şekil 2.2 DNA dizisi üzerinde bireysel varyasyon olan SNP DNA, insanlarda %99.9 oranında aynıdır. Sadece, 3 milyon civarında baz çifti farklılık göstermektedir ve farklılık gösteren bu baz çiftlerinden yaklaşık %90 ı tek nükleotid polimorfizmi diye adlandırılan moleküler belirteçlerdir. DNA da gözlemlenen bu dizi varyasyonu, biz, insanlar arasında fiziksel, hastalıklara yatkınlık vs. gibi farklılıkları ortaya çıkarmaktadır. SNP ler insan genomunda en sık bulunan genetik varyasyonlardır. Bir genetik varyasyonun polimorfizm (çok biçimlilik) olarak tanımlanabilmesi için bir popülasyondaki sıklığının en az %1 olması gerekmektedir. İnsan genomunda genler tüm DNA dizisinin çok az bir kısmını kapsamaktadır ve genler arasındaki DNA dizisinin %90 dan fazlası belirli bir ürün kodlamamaktadır. İnsan genomunda SNP ler yaklaşık her 300~1000 baz çiftinde bir bulunurlar. Birçok SNP protein yapı ve fonksiyonunda değişikliğe neden olmaz (Miller ve Kwok 2001). Eğer SNP ler aminoasitlerde değişikliğe neden oluyorlarsa yanlış anlamlı (missense) SNP olarak adlandırılırlar. Şekil 2.3 te bir kromozom üzerinde genlerin ve SNP lerin nasıl yer alabileceği gösterilmektedir. 9

19 Şekil 2.3 Kromozom üzerinde genlerin ve SNP lerin yerleşimi İlerleteci(promoter)bölgedeki SNP ler, protein yapısına etkileri olmamakla birlikte transkripsiyon faktörlerinin bağlanmasını etkileyerek protein ifadelemesini (expression) değiştirebilmektedirler. Fakat çoğu SNP hem kodlamayan dizide bulunmaları hem de aynı aminoasidi kodlayan varyantlar oluşturdukları için fenotip (genetik karakterlerden ve kısmen de dış ortama bağlı olarak canlılarda ortaya çıkan özelliklerin tümü) üzerinde herhangi bir etkileri yoktur. Aday gen analizinde SNP ler seçilirken bu farklılıkların anlaşılması önemlidir. Genel olarak, ilerleteci bölgedeki SNP ler ve yanlış anlamlı SNP ler kodlamayan bölgedekilere göre muhtemelen daha önemlidir (Yende vd. 2006). SNP ler, genomda sık ve kararlı bir şekilde dağılım gösterebilmeleri nedeni ile tercih edilen moleküler belirteç olmuşlardır. Yüksek işlem hacimli genotipleme yöntemlerinin gelişmesi ile aynı anda bir bireye ait milyonun üzerinde SNP genotipi sağlanabiliyor. Bu manada, ilgili bireyin genom haritasının oluşturulması ortaya koyulabilir bir hale gelmiştir. Böylece, SNP mikrodizinleri gibi yongalar geliştirilerek, hem bağlantı hem de ilişkilendirme analizlerinde, kendilerine yaygın kullanım alanı bulabilmektedirler. (Gupta vd. 2008). 10

20 2.5 Kompleks Hastalıklar Birçok kalıtsal ve çevresel faktörlerin etkisi ile oluşan hastalıklara kompleks hastalıklar adı verilmektedir (Schork 1997). Yaklaşık son 30 yıl içinde, mendel kuralına göre kalıtılan hastalıklardaki moleküler genetiğinin anlaşılması istikametinde büyük mesafeler kat edilmiştir. Mendel kurallarına göre, tek bir gen incelenmekte ve ilgili gende izlenen mutasyonlar hastalık üzerinde geniş etkiye sahip olmaktadır. Günümüzde ise, birçok genin beraber hareketle oluşturdukları etki ile poligenik kalıtım gösteren kompleks insan hastalıklarında moleküler genetiğinin çözümlenmesi için yoğun çalışmalar sürdürülmektedir. Bu çalışmaya genomik teknolojideki gelişmeler katkıda bulunmaktadır (Pharoah vd. 2004). Düşük etkinli (penetranslı) aleller, kompleks hastalıklara olan yatkınlığı artırmaktadırlar. Bu gibi aleller ailelerde seyrek olarak çoklu vaka oluşturacağından, bu alellerin genetik bağlantı analizleri ile tanımlanması zor hatta imkansızdır. Bu nedenle, hasta ve kontrol gruplarında spesifik alel frekanslarının kıyaslanması ile yapılan ilişkilendirme çalışmaları, düşük penetranslı (etkinli) alellerin aranması ve belirlenmesi için çözüm olmaktadır (Webb ve Houlston 2007, McCarthy vd. 2008). 2.6 İlişkilendirme Çalışmaları İnsan genom sekans taslağının 2001 yılında çıkarılması ve 2003 yılında tam olarak netleştirilmesinden sonra, hastalıkların genetik öğelerini inceleyen araştırmalarda patlama olmuştur. Sosyo-demografik ve klinik risk faktörleri, belirli bir bireyin neden hastalık geliştirdiği, ya da öldüğünü tam olarak açıklayamamaktadır. Bu nedenle, bilim adamları genetik varyasyonların hastalıklara yatkınlığa neden olup olmadığını ve hastalıkların sonucunu etkileyip etkilemediğini anlamaya çalışmaktadırlar (Yende vd. 2006, Manolio vd. 2008). 11

21 İlişkilendirme çalışmaları, kalıtım modeli bilinmeyen, genetik etkenlerin işe karıştığı astım, kanser, diabet, kalp hastalıkları gibi kompleks ve yaygın hastalıkların araştırılması ve bu gibi hastalıklarda rol oynayan genlerin tanımlanması için kullanılmaktadır. İlişkilendirme çalışmaları ile vakalar (belirli bir hastalığı olan kişiler veya belli bir özelliğe sahip bireyler) ve kontroller arasındaki alel frekans farkına bakılmaktadır. Aleller incelenerek, belirteç, lokustaki (bir genin kromozom üzerindeki yeri) belirli bir alelin, hastalığa yüksek risk oluşturan yatkınlık aleli ile nasıl birlikte kalıtlandığı hakkında bilgi vermektedir (Kruglyak 2008). Kompleks hastalıkları etkileyen genleri ortaya çıkarmak ve tanımlamak için iki temel ilişkilendirme çalışma yaklaşımı vardır. Bunlar, aday gen ilişkilendirme çalışmaları ve genom boyu ilişkilendirme çalışmalarıdır (Schork 1997). Bu çalışmalar sırası ile aşağıda anlatılmaktadır Aday gen ilişkilendirme çalışmaları Aday gen analizi, belirli bir moleküler belirteç ile bir hastalık arasındaki ilişkilendirmeyi test etmeyi amaçlayan bir yaklaşımdır (Schork 1997). Bu çalışmada, hastalığın biyolojisi ile ilgili varsayımlar ile araştırılacak hastalığa ait eldeki tüm veriler göz önünde bulundurarak, ilgili aday genlerle çalışılmaktadır. Dolayısıyla, bu yaklaşım ile yeni genlerin izolasyonu gerekmemektedir, ancak aday genlerin fonksiyonları ile ilişkili bilgilerin elde edilebilmesi için bu genlerin genomdaki lokalizasyonuna gerek duyulmaktadır. Genomda, belirlenen aday genlerin bulunduğu bölgelere sıkı bağlantı gösteren genetik belirteçler öncelikli olarak test edilmektedir. Test edilen bu genetik varyasyonlar, hastalıklı kişilerde hastalıklı olmayanlara göre daha sık görülüyorsa, o varyasyon ve hastalık arasında bir ilişki olabileceği çıkarımı yapılabilmektedir (Schork 1997). Aday gen ilişkilendirme çalışmalarında, biyolojik yolak ile ilgili en olası bir veya daha fazla gendeki genetik varyasyonun rolü araştırılmaktadır. Dolayısıyla, daha önceden yatkınlık lokusu ile ilgili bir bilgiye sahip olmadan bu çalışmanın yürütülmesi mümkün olmamaktadır. 12

22 2.6.4 Genom boyu ilişkilendirme çalışmaları Genom boyu ilişkilendirme çalışmaları (genom wide association study, GWAS), güncel bir strateji olarak, hastalığa yatkınlığın genetik temelini ortaya çıkarmak için kullanılmaktadır (Moore vd. 2010). Genom boyu ilişkilendirme çalışmalarında araştırıcı yatkınlık lokusu ile ilgili önceden bir bilgiye sahip değildir, ilgilenilen hastalıkla ilişki gösteren kromozomal bölgeyi tanımlamak için çalışmaktadır (Yende vd. 2006). Bu çalışmada, genomda en yaygın olarak bulunan, genomik varyantlar olan SNP ler kullanılmaktadır. SNP ler binlerce kuşak önce oluşan ve doğal seleksiyon veya şansla yayılan mutasyonlardır. Daha önce mevcut olan SNP e çok yakın ikinci bir SNP oluştuğunda (aralarında onbinlerce baz çiftinden de fazla mesafe olabilmektedir) bu iki varyant alel, çoğunlukla bir sonraki kuşaktaki aynı oğula aktarılmaktadır. İki alelin tesadüfi olmayan bu birlikteliği, bağlantı dengesizliği (linkage disequilibirum, LD) olarak tanımlanmaktadır (Cichon vd. 2009). Eğer bir SNP yaygın olan bir hastalığın riskini artırıyorsa, hastalık ile bu SNP (direk ilişkili) ve birkaç yakın SNP (LD den kaynaklanan dolaylı ilişkili) arasında istatistiksel olarak anlamlı bir ilişki, ilişkilendirme var olduğu düşünülmektedir (Cichon vd. 2009). Farklı lokuslardaki polimorfizmler arasındaki tesadüfi olmayan ilişkilendirme, LD derecesine göre ölçülmektedir. LD derecesi, sayısal olarak, gözlenen ve beklenen alel frekansı arasındaki farktır. LD nin derecesi genetik bağlantı, seleksiyon, rekombinasyon ve mutasyon oranı, genetik kayma, tesadüfi olmayan çiftleşme ve popülasyon yapısı gibi birçok faktörden etkilenmektedir. Hastalık fenotipi (kalıtsal karakterlerden ve kısmen de dış ortama bağlı olarak ortaya çıkan özelliklerin tümü) ile hastalığa yatkınlık lokusu arasındaki ilişkinin test edilmesini amaçlayan genom boyu ilişkilendirme çalışmalarında, hastalık fenotipi ile ilişkilendirme gösteren moleküler belirteç amaca ulaşmada ipucu olarak kullanılmaktadır. Bu sayede, hastalık fenotipi ile ilişkilendirme gösteren moleküler belirteç ile yüksek LD gösteren lokus, hastalığa yatkınlık lokusu olarak tanımlanabilmektedir. Genom boyu ilişkilendirme çalışmalarında, genler değil lokuslar tanımlanmakta ve insan hastalıklarının yaygın varyasyon-yaygın hastalık hipotezine uyan lokuslarınınbulunması 13

23 üzere tasarı yapılmaktadır (Hardy 2009). Yaygın varyasyon-yaygın hastalık hipotezi, birçok yaygın hastalığın yaygın alellerden kaynaklandığını belirtmektedir (Hardy 2009, Moore vd. 2010). Genom varyasyonları ile ilgili bilgiler ışığında ve yeni biyomühendislik yöntemlerinin birlikte kullanımı ile bir milyondan fazla SNP i analiz edebilen yongalar tasarlanmıştır. Bu yongaların kullanımı arttıkça maliyeti düşmüş ve böylece çalışmaların sayısı da gittikçe yükselmiştir yılında yayınlanan iki yayına göre, genom boyu ilişkilendirme çalışmaları ile 70 hastalık için yüzlerce yatkınlık lokusu rapor edilmiştir (Moore vd. 2010). Tipik bir genom boyu ilişkilendirme çalışması, 4 aşamadan oluşmaktadır. Bunlar sırası ile vaka/kontrol grubunun seçilmesi, DNA izolasyonu ve genotiplendirme, hastalık ile eşik değerini geçen SNP ler arasındaki ilişkinin istatistiksel olarak değerlendirilmesi ve son olarak, verileri güçlendirmek ve doğrulamak için tanımlanan ilişkinin bağımsız popülasyon örneklerinde tekrarlanması veya işlevsel anlamın deneysel olarak incelenmesidir. Günümüzde çok yaygın olarak kullanılan genom boyu ilişkilendirme çalışmalarının avantajları ve dezavantajları da bulunmaktadır. Avantajları arasında bir başlangıç hipotezine ihtiyaç duymaması, işlenebilen dijital bilgi kullanması, hem sekans hem de kopya sayısı varyasyonları hakkında bilgi sağlaması sayılabilmektedir. Ayrıca genom boyu ilişkilendirme çalışmaları, çoklu etkileşim gösteren hastalık genlerini ve bu genlerin ayrı ayrı yolaklarını tanımlayabilerek, hastalığın etiyolojisinin (hastalık nedenlerini araştırma bilimi) kapsamlı olarak anlaşılmasını sağlamaktadır. Genom boyu ilişkilendirme çalışmalarında, çok sayıda örneğe gereksinim duyulması bir dezavantaj olarak çalışmalara önemli bir kısıtlama getirmektedir; bir diğer kısıtlayıcı özelliği ise popülasyonda sadece yaygın olan, yani %5 ten daha fazla görülen alelleri 14

24 belirleyebilmesidir. Bu nedenle genom boyu ilişkilendirme çalışmalarının, hastalık ile ilişkili bütün genetik değişkenlikler hakkında bilgi sağladığı düşünülmesi önemli bir hata olacaktır (Hardy 2009). Bu çalışma ile elde edilecek verilerin doğrulanması için, yine çok sayıda örnek ile tekrarlanması gerekliliği de genom boyu ilişkilendirme çalışmalarında önemli bir dezavantaj olarak karşımıza çıkmaktadır (Hardy 2009). Birçok araştırmada vazgeçilmez bir araç olarak kullanılan genom boyu ilişkilendirme çalışmaları, popülasyon temelli ve aile temelli olarak iki farklı şekilde ele alınmaktadır. 2.7 Popülasyon Temelli Genom Boyu İlişkilendirme Çalışmaları Popülasyon temelli genom boyu ilişkilendirme çalışmalarının tasarımında vaka ve kontrol grupları ile çalışılmaktadır. Vaka ve kontrol gruplarını oluşturan bireyler bağımsız seçilen bireyler olduklarındanpopülasyon katmanlaşması (stratification) ortaya çıkmaktadır (Cardon ve Palmer 2003). Popülasyondaki katmanlaşma gerçekte olmayan ilişkilerin varmış gibi görünmesine neden olabilmektedir. Popülasyon katmanlaşması, popülasyondaki alt popülasyonlar arasında alel frekansında sistematik bir farkın olması durumudur. Bu fark alt popülasyonların farklı soydan gelmeleri gibi nedenlerden kaynaklanabilmektedir. Popülasyon katmanlaşması, karışma, test istatistiğinde aşırı dağılmaya yol açan ilintisizlik (relatedness) ve seçmede önyargı (bias) gibi üç önemli probleme yol açmaktadır (Duncan 2005). Yukarıda bahsedildiği gibi, popülasyon katmanlaşması popülasyon temelli ilişkilendirme çalışmalarında önemli bir sorun olarak ortaya çıkmaktadır. Bu nedenle, son yıllarda yapılan araştırma ve incelemeler sonucundapopülasyon temelli ilişkilendirme çalışmalarındaistatistiksel olarak güvenilir sonuç elde edebilmenin tek yolu, binlerce vaka-kontrol üzerinde çalışmak olduğuna karar birliği ile varılmıştır (Duncan 2005, Bowcock 2007). Fakat binlerce hatta onbirlercevaka-kontrol örneğine gereksinim duyulması, popülasyon temelli ilişkilendirme çalışmasını, oldukça zor ve maliyetli bir çalışma olduğunu açıkça ortaya koymaktadır. 15

25 Araştırmacılar, lojistik şart ve imkanlarına göre çalıştıkları hastalıkların ve/veya kendi çalışma gruplarının özelliğine göre popülasyon temelli ve/veya aile temelli ilişkilendirme çalışması yaklaşımını tercih etmektedirler. Bir sonraki alt başlıkta anlatılacağı üzere, aile temelli yaklaşımda popülasyon temelli yaklaşımdan farklı olarak katmanlaşma sorunu büyük ölçüde aşıldığı için önemli bir avantaj olarak daha az sayıda örnek ile çalışmalarsürdürülebilmektedir. 2.8 Aile Temelli Genom Boyu İlişkilendirme Çalışmaları Aile temelli genom boyu ilişkilendirme çalışmalarında, etkilenmiş birey yani hasta (çocuk) ile onun sağlıklı anne ve babası ile çalışılmaktadır. Şekil 2.4 de bu yapı veriliyor. Burada etkilenen çocuk, sağlıklı olan anne ve babadır. Şekil 2.4 Aile temelli ilişkilendirme çalışmalarında kullanılan anne-baba-çocuk üçlüsü Popülasyon temelli ilişkilendirme çalışmalarının önündeki en büyük engel olan popülasyon katmanlaşması, aile bazlı tasarımla büyük ölçüde aşılmaktadır. Buyaklaşım ile genetik çalışmalarda kısıtlayıcı bir sorun olarak araştırmacıların karşısına çıkan örnek sayı problemi bir nebze çözüme kavuşmaktadır. Genetik analizler için binler rakamları ile değerlendirilen ihtiyaç, bir manada bu yaklaşım ile yüzlere indirgenebilmiştir (Yang vd. 2003). Bu nedenle son yıllarda aile temelli ilişkilendirme çalışmalarına olan ilgi artmıştır. 16

26 Yalnız kanser gibi birçok kompleks hastalıklar, insanlarda ileri yaşlarda ortaya çıktığı için, üçlü tasarımda kullanılan hasta çocuk ve sağlıklı anne-baba üçgeninde anne ve baba verisine ulaşmada çok ciddi sıkıntılar yaşanabilmektedir. Çünkü ileri yaşta hasta çocuğun anne veya babası veya her ikisi çoktan vefat etmiş oluyor. Veri toplama aynı zamanda hem vakit hem de nakit bakımından çalışma gruplarını zorlayan birer unsur olarak ortaya çıkmaktadır. Aile temelli ilişkilendirme çalışmalarında, geleneksel metotlar ile istatistiksel güçlü analiz yapabilmek için, en az 200 üçlüye yani anne-baba-çocuk olarak toplam 600 ve üzeri örneğe ihtiyaç duyulmaktadır (Yang vd. 2003). Bu örnek sayısına ulaşmak bazen araştırmacının yıllarını almakta, bazen de hiç mümkün olamamaktadır. Yukarıda verilen genel bilgilendirme sonrası, özetle şunlar söylenebilir: Son yıllarda yapılan araştırma ve incelemeler sonucunda vaka-kontrol tasarımında güvenilir sonuç alabilmenin tek yolunun binlerce vaka üzerinde çalışmak olduğu hususunda karar birliğine varılmıştır. Fakat bu durum çoğu zaman araştırmacıları zor bir durumda bırakmaktadır. Zira günümüz şartlarında genom boyu analizlerin örnek başına Amerikan Dolarını bulan maliyetleri olduğu düşünüldüğünde bu çaptaki araştırmaların niçin yalnızca Amerika ve İngiltere menşeli olduğunu anlamak güç olmayacaktır. Vaka-kontrol tasarımının önündeki bir diğer önemli kısıtlama bu denli geniş bir örnek grubunu toplayabilmekte ortaya çıkan ciddi lojistik zorluklardır. Bu kadar çok sayıda hasta ve kontrol örneğini toplayabilmek çok merkezli koordine bir çalışmayı gerektirmektedir. Vaka-kontrol tasarımlarının bu iki temel kısıtlaması nedeni ile başvurulan bir diğer yaklaşım aile temelli ilişkilendirme analizleridir. Aile temelli tasarımlarda vakalar sağlıklı anne ve babaları ile karşılıklı olarak incelenir. Bu tasarımda karşılaştırma sağlıklı anne babalarla bir diğer ifade ile benzer gen havuzu ile yapılacağı için popülasyon katmanlaşması problemi aşılabilmekte ve 200 hasta 200 sağlıklı anne ve baba ile (toplam 600 birey, 200 tane anne, baba, çocuktan oluşan üçlü/trio) karşılaştırıldığında hastalıkla güvenle ilişkilendirme yapılacak genler tespit edilebilmektedir. Aile temelli ilişkilendirme analizleri vaka-kontrol tasarımlarının önündeki en önemli iki kısıtlamayı kaldırabilmekle beraber özellikle erişkin dönemde 17

27 ortaya çıkan hastalıklarda halen hayatta olan anne ve babalara ulaşmada ve sonuçta güvenilir sonuç verebilecek 200 üçlüyü tamamlamada sıkıntı yaşanan analizlerdir. Bu tez çalışmasında, çok faktör ve çok gen etkisi altında (obezite, kanser, astım vb.) kompleks hastalıkların oluşumunda rol alan genlerin tespiti için uygulanan aile temelli ilişkilendirme analiz metotlarının önündeki en büyük engel olan örneklem büyüklüğü sınırlaması, önerilen istatistiksel sinyal işleme algoritmaları ile aşılmıştır. 18

28 3. KALITIMDA DENGESİZ AKTARIM TESTİ (KDAT) 3.1 İlişkilendirme Çalışmalarında Kullanılan Geleneksel Yöntem KDAT Üzerine Temel Bilgiler Kalıtımda dengesiz aktarım testispielman, McGinnis ve Ewens (1993) tarafından aile temelli ilişkilendirme çalışmalarında marker ve hastalık lokusları arasında bir genetik bağlantı olduğunda uygulanmak üzere önerilmiştir. Bu öneri McNemar testin özel bir uygulamasıdır. Bu test, toplumdaki genetik yapılanmadan etkilenmemektedir ve ilgilenilen alel açısından, heterozigot ebeveynleri ve hasta çocukları incelemektedir. Özet olarak şöyle denebilir, ilişkiyi değerlendirmek ve eş zamanlı olarak hastalık ve gösterge alelinin kuşaklar arası birlikteliğini değerlendiren bağlantı hakkında da bilgi edinebilmek için, kalıtımda dengesiz aktarım testi (KDAT) kullanıma girmiştir (Ewens ve Spielman1995). KDAT analizinin yapılabilmesi için hasta çocuğa aktarılan ve aktarılmayan alellerin karşılaştırıldığı bir çizelge oluşturulmasına ihtiyaç duyulmaktadır (Dracopoli 1994). Her iki ebeveynden de kalıtılan ve kalıtılmayan alleller, aynı tablo içinde belirtmemiz gerektiği için, dört gözlü kalıtımda dengesiz aktarım testi çizelgesi oluşturulmaktadır (Çizelge 3.1). Bu dört gözlü kalıtımda dengesiz aktarım testi çizelgesi, anne ve babada belirli bir genotip görüldüğü durumlarda çocukların genotiplerine aktarılan ve aktarılmayan aleller değerlendirilerek doldurulmaktadır. İki alelli (A ve B) bir marker lokusum ele alınmakta ve etkilenmiş çocuk ile anne ve babasının genotipleri elde edilmektedir. Genel manada, veri analizi alel aktarılma sayısıdır; yani, ebeveynlerin her bir genotipi için (AA, AB ve BB), A alelinin veya B alelinin etkilenmiş çocuğa aktarılma sayısını vermektedir (Spielman vd. 1993). 19

29 Çizelge 3.1 KDAT dört gözlü tablosu Çocuğa Aktarılmayan Aleller Alel A Alel B Çocuğa Aktarılan Aleller Alel A a b Alel B c d Çizelge 3.1 de : a = homozigot anne ve babalardan taşıyıcı çocuğa A alelini aktarıp, fakat yine A alelini aktaramayan toplam anne ve baba sayısını göstermektedir. b = heterozigot anne ve babalardan taşıyıcı çocuğa A alelini aktarıp, fakat B alelini aktaramayan toplam anne ve baba sayısını göstermektedir. c = heterozigot anne ve babalardan taşıyıcı çocuğa A alelini aktaramayıp, fakat B alelini aktaran toplam anne ve baba sayısını göstermektedir. d = homozigot anne ve babalardan taşıyıcı çocuğa B alelini aktaramayıp, fakat yine B alelini aktaran toplam anne ve baba sayısını göstermektedir. Kalıtımda dengesiz aktarım testi aşağıdaki test istatistiğini kullanmaktadır. 2 ( b c) 2 KDAT = ~ χ (1) b+ c (3.1) 20

30 Kalıtımda dengesiz aktarım testi, istatistiğinde iki alel içeren sistem kullanıldığı içinχ dağılımı özelliği göstermektedir. İki alellik sistemde oluşturulan çizelge iki gözlü bir çizelge olduğundan serbestlik derecesi de 1 olarak seçilmektedir. 3.2 Kalıtımda Dengesiz Aktarım Testin Bir Örnek Üzerinde Uygulaması Burada Current Protochols Human Genetics kitabında KDAT analizlerini açıklamak için var olan bir örnek kullanılmıştır. Bu örneği, Akarsu ve Çakır (2004) makalelerinde 9 durum alt başlıklarında açıklamaktadırlar. Durumların açıklamalarına geçmeden önce iki aşamalı bir ön çalışma yapılmaktadır. İlk olarak, ebeveyn-çocuk karşılaştırılması yapılarak, anne-babada belirli bir genotip görüldüğü zaman çocuk genotipini gösterecekbir çizelge hazırlanmaktadır. Var olan örnek göz önünde bulundurulduğu zaman, çizelge 3.2 ortaya çıkmaktadır. İkinci aşamada, hasta çocuğa aktarılan ve aktarılmayan alellerin karşılaştırıldığı bir tablo oluşturulmaktadır. Bu tablo, Bölüm 3.1 de dört gözlü KDAT tablosu olarak tanıtılmakta ve çizelge 3.1 de verilmektedir. Oluşturulan dört gözlü tablo, aşağıda açıklanacak 9 durum bir bir değerlendirilerek doldurulmaktadır. Çizelge 3.2 KDATanalizinde kullanılacak genotip verileri Anne Baba Hasta çocuklarda gözlenen Ebeveynlerde gözlenen genotip sayıları toplam genotip sayısı A-A A-B B-B 1 AA AA AB AA AA AB AB AB AB BB BB AB BB BB AA BB BB AA

31 Şekil 3.1 de, doldurulmuş dört gözlü KDAT tablosu gösterilmektedir. Bu tablo çizelge3.2 de sunulan genotip verileri kullanılarak doldurulmuştur. Çocuğa aktarılan ve aktarılmayan aleller ışığında doldurulan bu tablo, verilen örnekteki 9 durum göz önünde bulundurularak hazırlanmıştır. Şekil 3.1 Ebeveynlerden hasta çocuğa aktarılan ve aktarılmayan alellerin toplam sayılarını gösteren KDATtablosu Şekil 3.1 de KDAT tablosundaki kutucuklara eklenen toplam sayıların nasıl elde edildiği gelecek dokuz durum ile izah edilecektir. 1 numaralı durum: Anne AA, Baba AA olduğu durumda çocuklarda tek durum ortaya çıkar (AA). Bu durumda annenin kalıtılan aleli A olduğu durumda kalıtılmayan aleli yine A olacağından a kutucuğuna 12 bireyi yazılması gerekir. Baba tarafından bakıldığı zaman durum annenin aynısı olacaktır. Baba tarafından da kalıtılan ve kalıtılmayan alel A olduğu için a kutucuğuna bir kez daha 12 birey işlenir. 2 numaralı durum: Anne AB, Baba AA olduğu durumda çocuklarda teorik olarak dört farklı durum ortaya çıkar AA, AA, BA ve BA durumları. Görüldüğü gibi bu pratikte aslında iki durum halinde görülecektir AA ve BA durumları. Annenin çocuğa aktardığı aleli A iken, aktarmadığı alel B olacaktır. Bu durumu karşılayan toplam 20 birey vardır 22

32 ve b kutucuğuna 20 birey yazılır. Annenin aktardığı alel B olduğu durumda ise aktarmadığı alel A olacağından bu duruma uygun olan 5 birey c kutucuğuna yazılır. Baba tarafından bakıldığında kalıtılan ve kalıtılmayan aleller arasında fark yoktur ve her ikisi de A aleli olacaktır. Bu nedenle a kutucuğuna toplam 25 birey eklenir. 3 numaralı durum: Anne AA, Baba AB ise çocuklarda yine teorik olarak dört durum oluşur AA, AB, AA ve AB durumları. Pratikte bu yine sadece iki farklı durum olarak karşımıza çıkar. AA durumda 20 birey, AB durumda ise 5 birey gözlenmiştir. Annenin çocuğa aktardığı aleli A iken, çocuğa aktarılmayan alel yine A olacaktır. Bu durumda çocuğun AA ya da AB olması annenin kalıttığı alel açısından herhangi bir fark göstermez. a içine 20+5=25 yazılır. Baba tarafından bakıldığı zaman kalıtılan alelin A ve B olmasına göre iki farklı durum ortaya çıkmaktadır. Çocuk AA durumunda olduğunda babanın çocuğa kalıttığı alel A, kalıtmadığı alel ise B olacaktır. Bu durumda olan toplam 20 birey vardır ve b kutucuğuna 20 yazılır. Çocuğun AB olduğu durumda ise babanın çocuğa verdiği alel B olacak kalıtmadığı, alel ise A olacaktır ve c kutusuna 5 yazılır. 4 numaralı durum: Anne AB, Baba AB durumunda ise çocuklarda toplam dört durum olur. İlk durum AA durumudur. Bu şekilde 20 birey gözlenmiş. İkinci durum AB ve üçüncü durum BA şeklindedir. Jel görünümü açısından bu iki durumu birbirinden ayırmak mümkün değil. O nedenle çocukta AB durumunda gözlenen 20 birey aslında her iki durumu da ifade etmektedir. Dördüncü durum BB durumudur ki bu şekli gösteren toplam 10 birey gözlenmiştir. Annenin kalıtılan aleli A, kalıtılmayan aleli B olduğu durumda toplam 40 birey var iken, baba tarafından bakıldığında yine kalıtılan alel A, kalıtılmayan alel B olan toplam 20 birey olacaktır. Böylece, b kutucuğuna birey yazılır. Annenin kalıtılan aleli B kalıtılmayan aleli B olduğu durumda olan 10 birey var iken, baba tarafından da aynı durumda olan yine 30 birey vardır. Böylece c kutucuğuna birey yazılır. 5 numaralı durum: Anne AB, Baba BB ise çocuklarda iki durum oluşur. İlk durum AB durumudur ve bu şekilde toplam 15 birey vardır. İkinci durum BB şeklindedir (10 23

33 birey). Anne nin kalıtılan aleli A ise, kalıtılmayan aleli B olacağından b kutucuğunun içine 15 yazılır. Yine annenin kalıtılan aleli B olduğu zaman kalıtılmayan aleli A olacağından c kutucuğunun içine 10 birey yazılır. Baba tarafından bakılacağı zaman kalıtılan ve kalıtılmayan aleller her zaman B olacağı için d kutucuğunun içine 25 (15+10) yazılması gerekir. 6 numaralı durum: Anne BB, Baba AB ise çocuklarda iki durum oluşacaktır. İlk durum BA durumudur ve bu şekilde toplam 15 birey vardır. İkinci durum BB şeklindedir (10 birey). Annenin kalıtılan aleli daima B, kalıtılmayan aleli de yine B olacağından d kutucuğunun içine 25 yazılır (15+10). Baba tarafından bakıldığı zaman kalıtılan alel A olduğu zaman kalıtılmayan alel B olan 15 birey var ve b kutucuğunun içine 15 yazılır. Babanın kalıtılan alleli B olduğu durumda kalıtılmayan aleli A olacaktır ve c kutucuğunun içine 10 yazılır. 7 numaralı durum: Anne BB, Baba BB ise çocuklarda sadece BB durumu olur. Bu durumda 13 birey var. Annenin kalıtılan aleli B, kalıtılmayan aleli yine B olacağından d kutucuğunun içine 13 yazılır. Babada da aynı durum söz konusu olduğu için yine d kutucuğunun içine 13 yazılır. 8 numaralı durum: Anne AA, Baba BB ise çocuklarda sadece AB durumu olur. Bu durumda 12 adet birey var. Annenin kalıtılan aleli A, kalıtılmayan aleli yine A olacaktır ve a kutucuğunun içine 12 yazılır. Baba tarafından baktığımız zaman kalıtılan alel B, kalıtılmayan alel yine B olacağı için bu kez d kutucuğunun içine 12 yazılması gerekir. 9 numaralı durum: Anne BB, Baba AA ise çocuklarda sadece BA durumu olur. Bu durumda 13 birey var. Annenin kalıtılan aleli B, kalıtılmayan aleli yine B olacağı için d kutucuğunun içine 13 yazılır. Baba tarafından bakıldığı zaman kalıtılan alel A olduğunda kalıtılmayan alel yine A olacaktır ve a kutucuğunun içine 13 yazılır. 24

34 Sonuç: A kutusu: =99 B kutusu: =130 C kutusu: =70 D kutusu: =101 A+B+C+D=400 alel KDAT=(b-c) 2 /(b+c)= (130-70) 2 /(130+70)=18 χ tablosuna bakıldığı zaman gözlenen 18 değerinin istatistik açıdan anlamlı olduğu görülecektir (p<0.001) (Akarsu ve Çakır 2004). 3.3 KDAT İstatistiksel Güç Analizi ve Bulgular Örnekte anlatılan durumları simülasyon çalışmalarında ve elimizde mevcut bulunan anne-baba-çocuk üçlü verisi analizlerinde daha kolay uygulayabilmek için, annebabadan olası bir genotip görüldüğü durumda çocuğun olası genotiplerini gösterecek bir çizelge oluşturulmaktadır (Çizelge 3.3). Bu çizelgede, anne-babadan gelecek genotiplerin oluşturabileceği dokuz olası duruma ikinci üçüncü sütunlarda yer verilmektedir. Daha sonraki üç sütunda, çocuğun bu olası durumlarda gelebilecek genotipleri verilmektedir. Gelebilecek üç genotip bilgisi vardır, bunlar AA, AB ve BB dir. Çizelge 3.3 de AA genotipi x n, AB genotipi y n ve BB genotipi de z n ile gösterilmekte ve n ile olası 9 durum kastedilmektedir. 25

35 Çizelge 3.3 Anne ve babanın genotiplerine göre olası çocuk genotipleri Durum Anne Baba Çocuk AA AB BB 1 AA AA x 1 * * 2 AB AA x 2 y 2 * 3 AA AB x 3 y 3 * 4 AB AB x 4 y 4 z 4 5 AB BB * y 5 z 5 6 BB AB * y 6 z 6 7 BB BB * * z 7 8 AA BB * y 8 * 9 BB AA * y 9 * Simülasyon verisi olarak elde edilen veya gerçek veri olarak elde bulunan anne-babaçocuk üçlü verisi ile analiz yapıldığında, çizelge 3.3 den yararlanarak, çok kolay bir şekilde a, b, c ve d değerleri hesaplanmaktadır. Bu hesaplama iki aşamalı yürütülmektedir: i) Anne-baba-çocuk üçlü verisi, çizelge 3.3 deki olası 9 durumdan biri ile eşleştirilmektedir. Hangi olası durumla örtüşüyor ise o durumdaki çocuğu tanımlayan x n, y n veya z n 1 artırılmaktadır (başlangıçta x n, y n ve z n sıfıra eşitlerdir). Mesela, gerçek veri olarak elde bulunan anne-baba-çocuk üçlüsünde anne AA, baba AB ve çocuk AB olsun. Bu durum 3.olası durum ile örtüşmekte, dolayısıyla bu üçlü verinin ilgili moleküler belirteci için y 3 değeri 1 artırılmaktadır. ii) Tüm üçlüler için ilk aşama uygulandıktan sonra, elde edilen x n, y n ve z n değerleri aşağıda verileneşitliklerde kullanılarak a, b, c ve d değerleri hesaplanmaktadır: 26

36 a = 2x b= x c= y 2 2 d = y x + x 3 + y + z x + 2x + y + y y y + 2z + z y + z + 2z 3 + y y + z 6 + y 8 + y y + y 9 9 KDAT hesaplanırken, sadece heterozigot anne veya babadan gelen genotipler kullanıldığı için sadece b ve c değerleri, denklem 1 de verildiği gibi, kullanılmaktadır. Çizelge 3.2 de, b ve c değerlerini belirleyen x n, y n ve z n farklı renklere boyanarak işaretlenmiştir. Sarı renge boyananlar b değerini, mavi renge boyananlar c değerini ve gri renge boyanan ise hem b hem de c değerini artırmaktadır. Yukarıdaki bilgiler ışığında, kalıtımda dengesiz aktarım testinin bir veri üzerinde denenebilmesi için simülasyon çalışması ile veri üretilmiştir. Bu tez kapsamında yapılan simülasyon çalışmasına kısaca değinmek gerekirse, çalışma MATLAB yazılım programında geliştirilen kodlarla yürütülmüştür. Çalışma gerçek veriler ışığında yapılmaya çalışılmıştır. Moleküler belirteç olarak SNP ler varsayılarak, toplamda 270,000 SNP ve 200 üçlü üretilmiştir. İstatistiksel birinci tip hatanın küçük seviyede tutulması (α=0.001) ve gücün %80 (β=0.8) olması hedeflenmiştir. 270,000 SNP ten 78,000 tanesi hastalıkla ilişkisi olmadığı varsayımı altında üretilirken, 108,000 tanesi az ile orta seviyede ilişkili, geriye kalan 84,000 SNP in ise hastalıkla yüksek düzeyde ilişkili olduğu varsayılmıştır.bu işlem 100 kez tekrarlanmıştır. Simülasyon ile veri üretmek için oluşturulan algoritma 4. (Ardışık Test) bölümde daha detaylı bir şekilde anlatılacaktır. Veri üretildikten sonra kalıtımda dengesiz aktarım testi uygulanmış ve 30 ile 200 arasında değişen üçlü sayısına göre: İlişki göstermeyen SNP ler için, üçlü sayısına göre doğru negatif (DN) ve hatalı pozitif (HP) yüzde oranları 27

37 Az veya orta düzeyde ilişki gösteren SNP ler için, üçlü sayısına göre doğru pozitif (DP) ve hatalı negatif (HN) yüzde oranları Yüksek düzeyde ilişki gösteren SNP ler için, üçlü sayısına göre doğru pozitif ve hatalı negatif yüzde oranları hesaplanmıştır. Yukarıda sıra ile bahsi geçen her bir durum için yapılan hesaplamalar çizelge 3.4 de verilmektedir. Simülasyon çalışması ile elde edilen veriler üzerine uygulanan kalıtımda dengesiz aktarım testi ilişki göstermeyen SNP ler için küçük örneklem boyutunda yüksek performans göstermesine rağmen, özellikle az veya orta düzeyde ilişki gösteren SNP ler için aynı şey söylenememektedir. Şekil de az veya orta düzeyde ilişki gösteren SNP ler için doğru pozitif ve hatalı negatif grafikleri verilmektedir. Burada gözüktüğü gibi üçlü sayısı 100 rakamının altında iken, KDAT ancak %40 lık bir başarı ile tespit yapabilmektedir. Şekil de yüksek düzeyde ilişki gösteren SNP ler için doğru pozitif ve hatalı negatif grafikleri verilmektedir. Yüksek düzeyde ilişki gösteren SNP ler için bile ancak 70 üçlüden sonra doğru pozitif %90 üzerine çıkabilmektedir. Hatalı negatiflere bakıldığında şu görülmektedir, 50 üçlüde hala %22.2 lik gibi yüksek bir oranda hatalı negatif elde edilmektedir. Simülasyon çalışması ile elde edilen sonuçlar, bize küçük örneklem boyutunda KDAT nin verimli bir metot olarak kullanılamayacağını söylemektedir. 28

38 Çizelge 3.4 İlişki göstermeyen, az ve orta düzeyde ilişki gösteren ve yüksek düzeyde ilişki gösteren SNP lerin üçlü sayısına göre sıra ile doğru negatif ve hatalı pozitif; doğru pozitif ve hatalı negatif; doğru pozitif ve hatalı negatif yüzde oranları Üçlü Sayısı İlişki göstermeyen Az veya orta düzeyde ilişki gösteren Yüksek düzeyde ilişki gösteren DN% HP% DP% HN% DP% HN%

39 80 DOĞRU POZİTİF % ÜÇLÜ Şekil 3.2 Az veya orta düzeyde ilişki gösteren SNP ler için hesaplanan doğru pozitif yüzdeleri 100 HATALI NEGATİF % HN ÜÇLÜ Şekil 3.3 Az veya orta düzeyde ilişki gösteren SNP ler için hesaplanan hatalı negatif yüzdeleri 30

40 100 DOĞRU POZİTİF % 90 X: 70 Y: DP ÜÇLÜ Şekil 3.4 Yüksek düzeyde ilişki gösteren SNP ler için hesaplanan doğru pozitif yüzdeleri 70 HATALI NEGATİF % HN X: 50 Y: ÜÇLÜ Şekil 3.5 Yüksek düzeyde ilişki gösteren SNP ler için hesaplanan hatalı negatif yüzdeleri 31

41 Dolayısıyla, küçük örneklem boyutunda çalışmalar yürütüldüğünde KDAT yüksek performansta çalışamayan bir test istatistiği olarak karşımıza çıkmaktadır. Halbuki özellikle geç yaşlarda ortaya çıkan hastalıklarda anne ve babaya ait genotip bilgisinin elde edilebilmesinde çok ciddi güçlükler çekilmektedir. Bunun en önemli sebebi, genellikle, anne veya babadan bir tanesinin ya da her ikisinin çoktan ölmüş olmalarıdır. Aynı zamanda, anne-baba-çocuk üçlü verilerin elde dilmesi ve analizi hem zaman bakımından hem de finansal manada ciddi bir kaynağa ihtiyaç duyduğundan, büyük örneklem boyutunda veri elde edilememektedir. Bu nedenle, aile temelli ilişkilendirme çalışmalarında, kalıtımda dengesiz aktarım testinin istatistiksel olarak güçlü bir sonuç verebilmesi için ihtiyaç duyulan veri miktarına ulaşmak çok zor bir sorun olarak karşımıza çıkmaktadır. 4.Bölüm de, aile temelli ilişkilendirme çalışmalarında küçük örneklem boyutu sorununu aşabilmek için, özgün bir çalışma olarak güçlü bir test istatistiği olan ve istatistiksel sinyal işlemede kullanılan, ardışık test istatistiği önerilmektedir. 32

42 4. ARDIŞIK TEST Ardışık testler, çalışmanın başında örneklem sayısına karar vermez. Aksine, örneklemleri teker teker ele alır, testi uygular ve üç karardan birine ulaşır: Hipotezi reddeder, reddetmez veya yeterince bilgi olmadığını ve örneklem alınmasına devam edilmesi gerektiğini belirtir. Daha önce yapılan simülasyon çalışmaları, ortalamada, ardışık hipotez testlerinin (AHT), çalışmanın başında örneklem sayısını sabitlemeyi gerektiren klasik testlerden daha az örneklem gerektirdiğini göstermiştir (van der Lee vd. 2008). Ayrıca, gerçek veriyle yapılan çalışmalar da, AHT nin örneklem boyutu açısından avantajını desteklemiştir. Örneğin, van der Tweel ve van Noord (2003), AHT nin biyolojik örneklem, zaman, bütçe vb. kaynaklardan %35 ila %65 kazanç sağlayabileceğini belirtmiştir. Özellikle kalite-kontrol, hedef kestirim vs. gibi birçok alanda kullanılan bu testler henüz aile temelli ilişkilendirme çalışmalarında önerilmemiştir. Bizim çalışmamız bu eksiği kapatmayı hedeflemektedir. Ardışık test, deneyin herhangi bir aşamasında, aşağıdaki üç durumdan birine karar verebilecek şekilde kural geliştirebilen bir istatistiksel testtir: i) Test edilen hipotezi kabul etme (sıfır hipotezi) ii) Sıfır hipotezini reddetme iii) Yeni bir gözlem yaparak deneyi devam ettirme Böylece, bu test ardışık olarak yapılmaktadır. İlk deney gözlemine dayanarak yukarıda verilen üç karardan biri uygulanmaktadır. Eğer birinci veya ikinci karar uygulanıyorsa o zaman deney sonlandırılmaktadır. Yok, eğer üçüncü karar uygulanıyor ise o zaman deney devam ettirilmekte ve yeniden ilk iki deney gözlemine dayanılarak üç karardan biri verilmekte ve ilk iki karar uygulanabiliyorsa deney sonlandırılmaktadır, yoksa üçüncü karar geçerli olduğundan devam ettiriliyor. Gözlem tekrarı ilk iki karardan biri uygulanana kadar devam ettirilmektedir (Wald 1947). 33

43 4.1 İlişkilendirme Çalışmaları için Önerilen Özgün Bir Yöntem Ardışık Olasılık Oran Testi (AOOT) Üzerine Temel Bilgiler τ, A alelin heterozigot olan anne-babadan aktarılma olasılığı olmak üzere, sıfır hipotezinin H 0 :τ = τ 0alternatif hipotezinh 1 :τ = τ 1 olduğu ve de τ 0 ın τ 1 den farklıolduğu bir hipotez test etme problemi düşünelim. Bu durumda, Ardışık Olasılık Oran Testi (AOOT) aşağıdaki gibi tanımlanmaktadır. Eger λm k1 ise, H0 kabul Eger λm k0 ise, H0 r et Diğer türlü, k0 < λm < k1 ise, Örneklemeye devam burada, λ m f ( X 1, τ 0 ) L f ( X m, τ 0 ) = λm ( X 1, L, X m ) = m=1,2, için (4.1) f ( X, τ ) L f ( X, τ ) 1 1 m 1 k 0, k 1 ise, 1. Tip ve 2. Tip hata oranlarına bağlı olan, eşik değerleridir. k 0 ve k 1 in nasıl hesaplandığı (4.2) denkleminde verilmektedir. α k 0 = k 1 1 β 1 α = β (4.2) b ~ Bin (b+c, τ)gerçeğinden faydalanarak, (4.1) denklemindeki AOOT formülü aşağıda verilen (4.3) denklemine dönüşmektedir. λ m τ = τ b 0 b 1 (1 τ ) (1 τ c 0 c 1) b τ 0 1 τ 0 = τ 1 1 τ 1 c (4.3) İlişkilendirme seviyesi τ 1 ve 1 τ 1 için eşit olduğundan, AOOT sonuçları iki durum için birleştiriliyor. Eğerτ 1 ve 1 τ 1değerleri Η 0 hipotezini kabul ediyorsa, o zaman ilişkinin olmadığına karar verilmektedir (Wetherill 1975). Ama eğer, herhangi biri H 1 hipotezini kabul ediyorsa, o zaman ilişkinin var olduğuna karar verilmektedir. Böylece, tek taraflı AOOT testi çift taraflı bir teste çevrilmiş olmaktadır. 34

44 AOOT analizinde, (4.3) denkleminden yararlanılarak m kadar üçlü için elde edilen λ m değeri, 1. Tip ve 2. Tip hata oranlarına bağlı olarak hesaplanan k 0 ve k 1 ile karşılaştırılmaktadır. Eğer, λ m değeri k1 değerinden büyük veya eşit olarak hesaplanırsa H 0 hipotezi kabul edilir ve analizi yapılan SNP için ilişkinin olmadığına karar verilir. Eğer, λ m değeri k0 değerinden küçük veya eşit olarak hesaplanırsa H 0 hipotezi ret edilir ve analizi yapılan SNP için ilişkinin var olduğuna karar verilir. Eğer, yukarıda verilen hiçbir şart sağlanamıyor ise, yani elde edilen λ m değeri k1 değerinden büyük veya eşit vek 0 değerinden küçük veya eşit değilse, örnek sayısı artırılarak λ m+ 1 hesaplanır ve aynı karşılaştırma işlemine devam edilir. 4.3 AOOT içinörneklem Boyutu Karşılaştırması Aile temelli ilişkilendirme çalışmalarında, istatistiksel güç hesaplamaları ve örneklem boyutunu ele alan çok zengin bir literatür bulunmaktadır. Farklı varsayımlar altında veri üreten simülasyon çalışmaları, aile temelli ilişkilendirme çalışmaları için makul bir istatistiksel güç elde edebilme adına yüzlerce ve bir kısım çalışmalar için hatta binlerce anne-baba-çocuk üçlüsüne ihtiyaç duyduğunu söylemektedir (Chen ve Deng 2001). Ardışık testler ise çalışmaya başlarken sabit bir örneklem boyutuna gereksinim duymaz. Ardışık testlerde örneklem boyutu, aynı zamanda bir rastgele değişkendir. Wald (1947), başarı olasılık fonksiyonu τ ile gösterilen ardışık testinin beklenen örneklem boyutunun, E τ (n), hesaplanması için bir formül önermektedir. Bu formül (4.4) denkleminde verilmektedir. Bu formülde, L(τ ), verilen τ değeri için H 0 hipotezini kabul eden bir olasılıktır. L( τ ) log( β /(1 α )) + (1 L( τ )) log((1 β ) / α ) E τ ( n) = (4.4) τ log( τ / τ ) + (1 τ ) log((1 τ ) /(1 )) τ 0 Burada α ve β sırasıyla 1.Tip ve 2.Tip hatalardır; τ 0 ve τ 1 sırasıyla H 0 ve H 1 hipotezleri altında aktarılma olasılıklarıdır ve τ doğru aktarılma olasılığıdır. Denklem (4.4) de (n) E τ, ardışık test süreci için gerekli olan beklenen gözlem sayısını vermektedir. 35

45 Dolayısıyla, H 0 veya H 1 hipotezlerinden herhangi birisinin lehine sonuçlanması için kullanılamaz. Beklenen örnek sayısı eğrisi, τ nun 0 ileτ 0 arasında artması ile artmakta ve τ 1 den 1 e doğru giderken de azalmaktadır. τ 0 veτ 1 arasında beklenen örnek sayısı genelde, τ diyebileceğimiz bir noktaya kadar artmakta ve daha sonra ise azalmaktadır. Bu nedenle, beklenen maksimum örnek sayısı τ 1 de veya τ yakınında gerçekleşmektedir. Maksimum boyutu elde etmek için, iki değerin maksimumunu seçmek gerekir: bu maksimumlardan biri (4.4) denkleminde τ ile τ 1 in yer değiştirmesi ile elde edilir ve diğeri de (4.5) denkleminin kullanımı ile elde edilir: (log( β /(1 α )))(log((1 β ) / α )) E τ ( n) = (4.5) log( τ / τ ) log((1 τ ) /(1 )) τ 1 Beklenen örneklem boyutlarının bir kısım tanımlayıcı istatistikleri denklem (4.4) ve (4.5) kullanılarak hesaplanmıştır ve şekil 4.1 de verilmektedir. Şekil 4.1 deki ortalama, olası tüm τ değerleri için alınan örneklem boyutunun ortalamasını vermektedir. Şekil 4.1 AOOT farklı τ 1 değerleri için %0.1 1.Tip hata ile %80 istatistiksel güç elde edebilmesi için gereken maksimum, ortalama, ortanca ve minimum sayıda beklenen örneklem boyutu sayısı(örneklem boyutu τ 1 = 0.5 için sonsuz değerini almaktadır) 36

46 İlişkilendirmenin olup olmadığını belirlemek için gereken örnek sayısı, τ 1, H 0 hipotezi altındaki değere yaklaştıkça (0.5) artmaktadır. Fakat, τ 1, 0.4 veya 0.6 değerlerini aldığında beklenen örneklem boyutu 15 (minimum) ile 305 (maksimum) değerleri arasında değişmektedir. Çalışmalarda τ 1=0.3 veya 0.7 olarak ele alıp test yapılmak istendiğinde, beklenen maksimum üçlü sayısı 73 olarak hesaplanmaktadır. Başka bir ifadeyle, AOOT kullanıldığında, ebeveynden etkilenmiş çocuğa marker alelin aktarılma olasılığı % 30 dan az veya eşit olduğunda veya % 70 den yüksek veya eşit olduğunda, hastalıkla ilişkili olan SNP leri sadece 73 anne-baba-çocuk üçlüsü ile tespit edilmesi beklenir. Öte yandan, KDAT için, çok daha fazla anne-baba-çocuk üçlüsü gerekli olduğu bilinmektedir. Chen ve Deng e (2001) göre, AOOT ile sağlanmış olan 1.Tip hata (0.001) oranında % 80 istatistiksel güce ulaşmak için, KDAT 547 anne-babaçocuk üçlüsüne ihtiyaç duymaktadır. 4.4 Gereç Olarak KullanılanSimülasyon Verisi için Geliştirilen Algoritma Çok sayıda üçlü elde edebilmenin zorluklarından Bölüm 2 de bahsedildiği üzere, biz de yürütmüş olduğumuz geç yaşta ortaya çıkan kanser çalışmasında ancak, 51 kadar üçlü sayısına ulaşabilmekteyiz. Bu verinin küçük örneklem boyutunda olması kalıtımda dengesiz aktarım testi ile güçlü bir istatistiksel analiz yapma olasılığını ortadan kaldırmaktadır. KDAT nin istatistiksel anlamlı sonuç verebilmesi için örnek sayısının yüzlerle ifade edildiği bilinmektedir (Wang ve Sun 2000, Chen ve Deng 2001). Dolayısıyla ilişkilendirme çalışmalarında verinin küçük örneklem boyutunda olma durumunda ortaya çıkan problemin çözülebilmesi için özgün bir çalışma olarak AOOT önerildi ve testin genel kavramları 4.1 bölümünde açıklandı. Bu yaklaşım sayesinde elimizde olan sınırlı örnek sayısı ile ilişkili SNP, ilişkili olmayan SNP ve şüpheli SNP diye sonuçlar üç sınıfta toplanabilmektedir. Önerilen yeni yaklaşımın performansını ölçebilmek ve geleneksel bir metot olan KDAT ile karşılaştırmanın yapılabilmesi için simülasyon verisi üretilmiştir. 37

47 Simülasyon verisi beş aşamada üretilmiştir: i) İlişkilendirme çalışmalarında verilerin analizlerini yapabilmek için önerilen testlerden, KDAT ve AOOT de, değişken olarak kullanılan b ve c değerleri üretilmektedir. Bu değişkenler koşullu olarak binom dağılımına sahiptirler. Sadece 1 veya 0 değerleri alabilen b ve c için olasılıkları 0.1 ile 0.9 arasında değişebilecek şekilde bir çizelge oluşturulmaktadır (Çizelge 4.1). Bu çizelgeye göre ilk satırda b için 1 gelme olasılıkları ve ilk sütunda c için 1 gelme olasılıkları verilmektedir. Dolayısıyla oluşabilecek 45 ayrı durum gözlemlenebilmektedir. Her bir olası durum için çizelge numaralandırılmaktadır. Mesela, 23.durumda b nin gelme olasılığı 0.3 yani p(b)=0.3 ve c nin gelme olasılığı 0.2 yani p(c)=0.2 olarak belirlenmektedir. Çizelge 4.1 b ve c nin, 1 değerini alabilmeleri için 0.1 ile 0.9 aralığında değişen olasılıklar için üretilen 45 durum p(c)\p(b)

48 ii) Olasılık oranlarına göre Genotipik Risk Oranı (GRO) hesaplanmakta ve (4.6) denklemine göre bu hesaplama yapılmaktadır (Schaid 1999): GRO = p( b) p( c) (1 (1 p( b)) p( c)) (4.6) Elde edilen risk düzeylerine göre sınıflandırma yapılabilmektedir: anlamlı olmayan ilişkilendirme (GRO<1.5), az veya orta düzeyde ilişkilendirme (1.5 GRO 3.5) ve yüksek düzeyde ilişkilendirme (GRO>3.5). GRO değerlerine göre sınıflandırma Kharrat vd. (2006) göre yapılmıştır. Denklem (4.6) ye göre 45 durum içinde anlamlı olmayan ilişkilendirme için 13 durum, az veya orta düzeyde ilişkilendirme için 18 durum ve yüksek düzeyde ilişkilendirme için 14 durum tespit edilmektedir. Çizelge 4.1 de yeşile boyanan hücreler anlamlı olmayan ilişkilendirme durumunu, sarı renge boyanan hücreler az veya orta düzeyde ilişkilendirme durumunu ve kırmızıya boyanan hücreler de yüksek düzeyde ilişkilendirme durumunu belirtmektedir. iii) Simülasyon çalışması ile üretilen çekirdek veri olan 45 ayrı durum, 6,000 defa tekrarlanmaktadır. Bu tekrar sonucu, oranları çekirdek veriden alınananlamlı olmayan ilişkilendirme, az veya orta düzeyde ilişkilendirme olan ve yüksek düzeyde ilişkilendirme olan, toplam 270,000 adet SNP için b ve c değerleri 1 ve 0 olacak şekilde elde edilmektedir.daha sonra 6,000lik tekrar 200 defa daha yapılarak 200lik üçlü verisi üretilmektedir. Sonuç olarak hem b hem de c için 270, lik matrisler elde edilmektedir. Bu SNP lerden 84,000 (çizelge 4.1 de kırmızı olanlar: =84,000) de yüksek derece ilişkilendirme beklentisi, 108,000 (çizelge 4.1 de sarı olanlar: 18 6,000=108,000) de az veya orta düzeyde bir ilişkilendirme beklentisi ve 78,000 (çizelge 4.1 de yeşil olanlar: 13 6,000=78,000) de anlamlı olmayan ilişkilendirme beklentisi bulunmaktadır. iv) Hem kalıtımda dengesiz aktarım testi hem de ardışık olasılık oran testi üretilensimülasyon verisi üzerine uygulanmaktadır. (4.2) denklemi kullanılarak AOOT için sınırlar hesaplanmakta, burada k 0 = ve k 1 =4.995 olarak 39

49 hesaplanmaktadır. Her bir analiz metodu için aynı nominal α (%0.2) ve β (%20) değerleri kullanılmaktadır. v) Simülasyon çalışmasının i-iv iv aşamaları 100 kez tekrarlanmakta ve elde edilen sonuçların ortalaması hesaplanmaktadır (Ilk vd. 2011). Ardışık olasılık oran testinin ve kalıtımda dengesiz aktarım testinin uygulanabilmesi ve elde edilen sonuçların karşılaştırılabilmesi için yapılan simülasyon çalışmasının akış diyagramı şekil 4.2 de veriliyor. "b" ve "c" değişkenlerini üretmek için 0.1 ile 0.9 arasında değişen '45 durumlu' çizelge oluşturularak 'çekirdek' veri üretilmektedir Her bir 45 durum için GRO hesaplanarak SNP'ler sınıflandırılmaktadır 'çekirdek' veri 6,000 defa tekrarlanarak 270,000lik veriye ulaşılmakta, bu veriden 200 adet kadar üretilerek 270,000lik 200 adet üçlü elde edilmektedir AOOT ve KDAT testleri üretilen veri üzerine uygulanmaktadır Simülasyon aşamaları 100 defa tekrar edilmekte ve elde edilen sonuçların ortalaması alınmaktadır Şekil 4.2 AOOT ve KDAT testleri için yapılan simülasyon çalışmasının akış diyagramı 40

50 4.5 AOOT ve KDATTestlerin Simülasyon Verisi Üzerine Uygulanması ve Bulgular Kalıtımda dengesiz aktarım testi ile ardışık olasılık oran testinin simülasyon çalışması ile elde edilen veriler üzerinde uyguladıktan sonra, doğruluk ( accuracy ) ölçümleri yapılmaktadır. Doğruluk, bir ölçüm değerinin gerçek değerine yakınlık derecesidir, istatistiksel olarak ifade edecek olursak doğru sonuçların (doğru pozitifler ve doğru negatifleri) genel ölçümlere oranıdır. Bir bakıma bu ölçüm, bütün sistemin verimliliğini ifade edebilecek bir ölçüm olarak tanımlanmaktadır. Doğruluk, (4.7) denklemi kullanılarak hesaplanmaktadır: Dogruluk = DP+ DN HP+ HN+ DP+ DN (4.7) Kalıtımda dengesiz aktarım testi ile ardışık olasılık oran testinin simülasyon çalışması ile elde edilen verilerüzerinde uygulanması sonucunda elde edilen doğruluk ölçümleri kıyaslandığında, ardışık olasılık oran testi ile hesaplanan doğruluk yüzdeleri küçük örneklem boyutunda kalıtımda dengesiz aktarım testinden çok daha yüksek bir oranda elde edildiği gözlenmektedir. Çizelge 4.2 de kalıtımda dengesiz aktarım testi ile ardışık olasılık oran testinin artan üçlü sayısına göre doğruluk yüzdeleri verilmektedir. Yapılan ölçümlerde AOOT için çok küçük örneklem boyutundan başlamak üzere doğruluk yüzdelerinin çok yüksek çıktığı görülmektedir. 40 ve üzeri üçlüler için doğruluk yüzdesi %90 üzerine çıkmaktadır. Fakat aynı şey, KTAD için söylenememektedir. Kalıtımda dengesiz aktarım testi ile yapılan analiz sonucunda, veri sayısı ancak 190 üçlüye ulaştıktan sonra, doğruluk yüzdesi %90 değerinin üzerine çıkabilmektedir. Uygulanan her iki test için, doğruluk yüzdelerinin artan üçlü sayısına göre değişim grafiği şekil 4.3 de verilmektedir. Tüm risk düzeyleri kapsayan ve verinin tamamı üzerindeki testlerin verimliliğini yorumlamaya yarayan doğruluk ölçümleri yapıldıktan sonra, ayrı ayrı risk düzeylerinde elde edilen verilerin değerlendirilmesi yapılmaktadır. 41

51 100 ÜÇLÜ VS. DOĞRULUK % 90 DOĞRULUK % AOOT KDAT ÜÇLÜ Şekil 4.3 Ardışık olasılık oran testi ile kalıtımda dengesiz aktarım testinin artan üçlü sayısına göre doğruluk yüzdeleri Yüksek düzey ilişkilendirme varsayımı altında üretilen veriler için doğru pozitif ve hatalı negatif yüzdeleri hesaplanmaktadır. Bu veriler için duyarlılık ( sensitivity ) ölçümleri yapılmaktadır. Duyarlılık, gerçek ilişkili olan veriler içinden ilişkili olanları ayırabilme yeteneğini gösterebilmektir. Hesaplamada, bu düzeydeki verinin tamamı ilişkili olduğu için, çok yüksek bir duyarlılık yüzdesi beklenmektedir. Duyarlılık, (4.8) denklemi kullanılarak hesaplanmaktadır: Duyarlilik = DP DP+ HN (4.8) Kalıtımda dengesiz aktarım testi ile ardışık olasılık oran testinin yüksek düzey ilişkilendirme verisine uygulanması sonucunda elde edilen duyarlılık ölçümleri kıyaslandığında, ardışık olasılık oran testinin çok az üçlü sayısı ile yakalayabildiği duyarlılık yüzdelerini kalıtımda dengesiz aktarım testi ancak belli bir üçlü sayısına ulaşabildikten sonra yakalayabilmektedir. Bu gözlemler, çizelge 4.3 de verilmektedir. 42

52 Yüksek düzeyde ilişkilendirme gösteren verilerde, ardışık olasılık oran testi ile elde edilen sonuçlarda üçlü sayısı daha 30 iken, yani örneklem boyutu çok küçük iken, %99.5 gibi çok yüksek bir duyarlılık yüzdesielde edilmektedir. Kalıtımda dengesiz aktarım testiile elde edilen sonuçlarda ise üçlü sayısı ancak 70 adedin üzerine çıktıktan sonra duyarlılık yüzdesi %90 oranını geçebilmektedir. Burada, AOOT sınıflandırma yaparken emin olmadığı veriler için doğru veya hatalı gibi yorum yapmaması, hataya karşı duyarlılığını, küçük örneklem boyutunda dahi, yüksek tutmaktadır. Aynı şeyi KDAT için söylenemiyor, bu test veri için muhakkak doğru veya hatalı yorumunu yapmaktadır. Uygulanan her iki test için, duyarlılık yüzdelerinin yüksek düzeyde ilişkilendirme gösteren veriler için artan üçlü sayısına göre değişim grafiği şekil 4.4 de verilmektedir. 100 ÜÇLÜ VS. DUYARLILIK % 90 DUYARLILIK % AOOT KDAT ÜÇLÜ Şekil 4.4 Ardışık olasılık oran testi ile kalıtımda dengesiz aktarım testinin, yüksek düzeyde ilişkilendirme gösteren veriler için artan üçlü sayısına göre duyarlılık yüzdeleri Az veya orta düzey ilişkilendirme varsayımı altında üretilen veriler için, yüksek düzey ilişkilendirme varsayımı altında üretilen veriler için yapıldığı gibi doğru pozitif ve hatalı negatif yüzdeleri hesaplanmakta ve duyarlılık ölçümleri yapılmaktadır. Bu düzey için artan üçlü ile yükselen duyarlılık yüzdeleri beklenmektedir. 43

53 Yapılan ölçümler, az veya orta düzey ilişkilendirme gösteren veriler için çizelge 4.4 de verilmektedir. Bahsi geçen düzey için ardışık olasılık oran testi ile elde edilen sonuçlara bakıldığında, ilk başta duyarlılık yüzdesi artan üçlü sayısı ile beraber hızlı bir yükselme eğilimine girmekte ama 70 yüzdesini yakaladıktan sonra yavaşlamaktadır. Üçlü 110 sayısını bulduğunda, duyarlılık %80 i geçmektedir. Kalıtımda dengesiz aktarım testi ile yapılan gözlemler, artan üçlü sayısı ile beraber duyarlılık yüzde artışı ardışık olasılık oran testindeki gibi olmadığını göstermektedir. Üçlü sayısı 200 rakamını geçmiş olmasına rağmen duyarlılık yüzdesi daha %80 i geçememiş bulunmaktadır. Uygulanan her iki test için duyarlılık yüzdelerinin, az veya orta düzeyde ilişkilendirme gösteren veriler için artan üçlü sayısına göre değişim grafiği,şekil 4.5 de verilmektedir. 90 ÜÇLÜ VS. DUYARLILIK % DUYARLILIK % AOOT KDAT ÜÇLÜ Şekil 4.5 Ardışık olasılık oran testi ile kalıtımda dengesiz aktarım testinin, az veya orta düzeyde ilişkilendirme gösteren veriler için artan üçlü sayısına göre duyarlılık yüzdeleri Anlamlı olmayan ilişkilendirme varsayımı altında üretilen veriler için hatalı pozitif ve doğru negatif yüzdeleri hesaplanmaktadır. Bu veriler için belirlilik ( specificity ) ölçümleri yapılmaktadır. Belirlilik, ilişkili olmayan verilerin ilişkili olmadığının söylenmesidir. Hesaplamada, bu düzeydeki verinin tamamı ilişkili olmadığı için çok 44

54 yüksek bir belirlilik yüzdesi beklenmektedir. Belirlilik, (4.9) denklemi kullanılarak hesaplanmaktadır: Belirlilik = DN DN+ HP (4.9) Çizelge 4.5 de görüldüğü üzere, her iki test bu düzeyde doğru hatalı verileri doğru bulabilmektedir. Küçük örneklem boyutunda, anlamlı olmayan ilişkilendirme verilerinde hem ardışık olasılık oran testi hem de kalıtımda dengesiz aktarım testi yüzde %100 oranında başarı gösterebilmektedir. Şekil de anlamlı olmayan ilişkilendirme verileri için belirlilik yüzdelerinin artan üçlü sayısına göre ardışık olasılık oran testi ve kalıtımda dengesiz aktarım testi için sıra ile gösterilmektedir. 100 ÜÇLÜ VS. BELİRLİLİK % BELİRLİLİK % ÜÇLÜ Şekil 4.6 Ardışık olasılık oran testi için anlamlı olmayan ilişkilendirme gösteren veriler için artan üçlü sayısına göre belirlilik yüzdeleri 45

55 100 ÜÇLÜ VS. BELİRLİLİK % BELİRLİLİK % ÜÇLÜ Şekil 4.7 Kalıtımda dengesiz testi için anlamlı olmayan ilişkilendirme gösteren veriler için artan üçlü sayısına göre belirlilik yüzdeleri Çizelge 4.2 α=0.1% ve β=20% için iki analiz testin üçlü sayısına göre genel doğruluk tablosu Üçlü sayısı Doğruluk % AOOT KDAT

56 Çizelge 4.3 Yüksek düzeyde ilişkilendirme gösteren SNP lerin üçlü sayısına göre doğru pozitif, hatalı negatif ve duyarlılık yüzde oranları Üçlü sayısı DP % HN % Duyarlılık % AOOT % KDAT AOOT % KDAT AOOT KDAT

57 Çizelge 4.4 Az veya orta düzeyde ilişkilendirme gösteren SNP lerin üçlü sayısına göre doğru pozitif, hatalı negatif ve duyarlılık yüzde oranları Üçlü sayısı DP % HN % Duyarlılık % AOOT KDAT AOOT % KDAT AOOT KDAT

58 Çizelge 4.5 İlişkilendirme göstermeyen SNP lerin üçlü sayısına göre doğru negatif, hatalı pozitif ve belirlilik yüzde oranları Üçlü Sayısı DN % HP % Belirlilik % AOOT KDAT AOOT KDAT AOOT KDAT

59 Kalıtımda dengesiz aktarım testine kıyasla, ardışık olasılık oran testi ile çok daha az sayıda hatalı negatif ve hatalı pozitifler saptandığı gözlenmiştir. Bu iki yöntem arasındaki fark, özellikle elimizde az sayıda üçlü olduğu zaman dikkat çekmektedir. Örneğin, az veya orta düzeyde ilişkilendirme olan SNP ler için, elimizde sadece 40 üçlü varsa, KDAT ile hatalı negatif oranı %94.7 iken, AOOT ile sadece %5.7 olarak bulunmuştur. 80 üçlü ile KDAT deki hatalı negatif oranı %65.9 iken, AOOT ile %9.4 dır. İstatistiksel güç açısından karşılaştırıldığında, KDAT nin gücünün AOOT ye kıyasla biraz daha yüksek olduğu gözlenmiştir. Örneğin, hastalıkla yüksek düzeyde ilişkilendirme olduğu varsayılan SNP ler için, 80 üçlü ile AOOT ile %89.1 lik güç elde edilirken, KDAT ile %94.4 lik güç elde edilmiştir. Az veya orta düzeyde ilişkilendirme gösteren SNP için küçük örneklem boyutunda, doğal olarak düşük güç değerleri elde edilmiştir. AOOT ile elde edilen sonuçlarda, hastalıkla yüksek düzeyde ilişkilendirme olduğu varsayılan SNP leri iki hipotezden birine atamak için, çok az sayıda üçlüye ihtiyaç olduğu görülmüştür. Sadece 50 üçlü ile bile, bu SNP lerin %60 ı hakkında karar verilebilmiştir. Geriye kalan %40 ı için ise daha fazla üçlü toplamaya devam et kararı çıkmıştır. Üçlü sayısı 90 a çıktığında, bu SNP lerin %90 ından fazlası için AOOT testleri sonuçlanmıştır. Anlamlı ilişkilendirme göstermeyen SNP ler için üçlü sayısı 80 i bulduğunda yaklaşık %65 i sınıflandırılmış olmaktadır. Diğer SNP ler için (az veya orta düzeyde ilişkilendirme gösteren) ise %80 ler düzeyinde sınıflandırma yapmak isteniyorsa, yaklaşık 200 üçlü sayısına ihtiyaç duyulmaktadır. Duyarlılık, belirlilik, pozitif ve negatif ön görü değerleri ( positive & negative predictive values ) ve doğruluk değerleri her iki yöntem için de hesaplanmış ve AOOT nin tüm bu ölçütlerde her üçlü sayısı için KDAT den üstün olduğu gözlenmiştir (Ilk vd. 2011). Bir kısım durumlarda fark az olarak gözlemlense de, bazı kriterlerde ciddi farklılıklar belirlenmiştir. Örneğin, az veya orta düzeyde ilişkilendirme olan SNP lerde, 100 den ufak üçlü sayısı için, AOOT %82 ila %89 arasında doğruluk değeri alır iken, KDAT % 45 ila % 69 arasında değerler almıştır. 50

60 Son olarak da ROC (Receiver operating characteristic) eğrisi çizerek,testlerin ayırt etme gücünün belirlenmesine çalışılmaktadır (Şekil 4.8). Burada, dikey eksen üzerinde doğrupozitiflik (duyarlılık) ve yatay eksen üzerinde yanlış pozitiflik (1-belirlilik) oranları yer almaktadır. Şekil 4.8 Ardışık olasılık oran testi ve kalıtımda dengesiz aktarım testi için ROC eğrileri Özetlemek gerekirse, aile temelli ilişkilendirme çalışmaları yürüten araştırmacılar için ardışık olasılık oran testi, özellikle küçük örneklem boyutunda çok iyi sonuç veriyor olması nedeni ile kendi çalışmalarında gereken veri sayısına ulaşamamış olanlara, ellerindeki yetersiz sayıdaki verileri analiz edipyorumlayabilmeleri için kolaylık sağlamaktadır. Bu metot, ilişkilendirme çalışmalarında daha önce kullanılmadığından, bu tez çalışmasında öneriliyor olması ile özgünlük kazanmıştır. 51

61 5. BİRLEŞİK KALITIMDA DENGESİZ AKTARIM TESTİ VE PERMÜTASYON TESTLERİ Özellikle geç yaşlarda ortaya çıkan hastalıklarda, anne ve babaya ait genotip bilgisinin elde edilemediği durumlara sıkça rastlanılmaktadır. Bunun en önemli sebebi, genellikle, anne veya babadan birinin veya her ikisinin çoktan ölmüş olmalarıdır (Weinberg 1999, Cervino vd. 2000). Bu sebeple, aile temelli ilişkilendirme çalışmalarında, anne-babaçocuk üçlüsünden oluşan ailelerin yanında, anne veya babadan sadece bir tanesinin olduğu, anne-çocuk ikilisi ve baba-çocuk ikilisinden oluşan ailelerin de gözlenmesi mümkündür. Çalışmanın böyle farklı aile gruplarını içermesi durumunda, sadece bir ebeveyn ve çocuktan oluşan aile gruplarını çalışmanın dışında bırakıp, çalışmayı sadece anne-baba-çocuk üçlülerinden oluşan aileler üzerine yöneltmek, haliyle de bilgi kaybına yol açacaktır. Bu durum ise, sonrasında, verinin analizi sırasında istatistiksel güç kaybına sebep olacaktır (Weinberg 1999,Cervino vd. 2000,Huve Zhou 2010). Bu sebeple, daha güvenilir sonuçlar elde edebilmek için, hem anne-baba-çocuk üçlüsündengelen bilgiyi, hem de anne-çocuk ve baba-çocuk ikililerinden gelen bilgiyi ortak olarak değerlendirmek büyük önem arzetmektedir (Huve Zhou 2010). 5.1 Birleşik Kalıtımda Dengesiz Aktarım Test İstatistiği ve Permütasyon TestleriTemel Bilgiler Bu bağlamda, Allen vd. (2003), bir ilişkilendirme çalışmasının, hem anne-baba-çocuk üçlüsüne hem de anne-çocuk ve baba-çocuk ikililerine ait genotip bilgisi içermesi durumunda, belirtilen lokusunhastalıkla ilişkili olup olmadığını anlamak içinbirleşik kalıtımda dengesiz aktarım test (B-KDAT) istatistiğini önermektedir. Aşağıdaki şekil 5.1 de gösterildiği üzere, aile temelli ilişkilendirme çalışmaları, sadece bir taşıyıcı çocuğu olan, anne-baba-çocuk üçlüsü, anne-çocuk ikilisi ve baba-çocuk ikilisi olmak üzere, üç farklı aile grubundan oluşmaktadır. İlişkilendirme çalışmalarında, her iki ebeveynin de eksik olduğu bir aile grubu ise mevcut değildir. Aynı zamanda, taşıyıcı çocukların hepsine ait genotip bilgisi bilinmektedir, yani taşıyıcı çocukların genotiplerinde herhangi bir kayıp durumu söz konusu değildir. Ebeveyn genotip bilgisi eksik olan ailelerde (anne-çocuk ikilisi veya baba-çocuk ikilisi), 52

62 ebeveyne ait bilginin olmamasının sebebi, geç yaşlarda ortaya çıkan hastalıklarda, taşıyıcı çocuğun ebeveyninden bir tanesinin çoktan vefat etmiş olmasıdır. Anne-babaçocuküçlüsü Anne-çocuk ikilisi Baba-çocuk ikilisi Şekil 5.1 Sadece bir taşıyıcı çocuğu olan üç farklı aile grubu * Anne, baba ve taşıyıcı çocuk genotipleri, sırasıyla, daire, kare ve üçgen ile gösterilmiştir. B-KDAT istatistiğinin kullanımı ise şöyle bir örnek üzerinden anlatılabilir. Öncelikle, sadece bir tane taşıyıcı çocuğu olan ve yukarıda bahsedilen şekil 5.1 de üç aile grubundan oluşan bir aile temelli genom bazlı bir ilişkilendirme çalışması ele alalım. Herbir marker lokuslarının A ve B alelinden oluşan iki alelli olduğunu farz edelim, böylece her bir kişinin o markerde genotipi AA, AB veya BB ile gösterilebilsin. Bu durumda B-KDAT istatistiği denklem (5.1) ile aşağıdaki gibi hesaplanabilmektedir: C TDT [ T NT + ω( N M< C N M = 2 T + NT + ω N > C M C ) + (1 ω)( N 2 + (1 ω) N F< C F C N F> C )] 2 (5.1) Bu formülde, anne-baba-çocuk üçlüleri için, T = heterozigot anne ve babalardan taşıyıcı çocuğa A alelini aktarıp, fakat B alelini aktaramayan toplam anne ve baba sayısını göstermektedir. NT = heterozigot anne ve babalardan taşıyıcı çocuğa A alelini aktaramayıp, fakat B alelini aktaran toplam anne ve baba sayısını göstermektedir. 53

63 Sadece bir ebeveynin bulunduğu aileler (anne-çocuk ikilisi ve baba-çocuk ikilisi) için, n m = toplam anne-çocuk ikilisi sayısını göstermektedir. n p = toplam baba-çocuk ikilisi sayısını göstermektedir. ω = n p /(n m +n p )denklemi ile hesaplanmaktadır. Anne-çocuk ikilileri için, N M<C = I M<C = annenin taşıyıcı çocuktan daha az A alel kopyası taşıdığı anne-çocuk ikili sayısını göstermektedir. N M>C = I M>C = annenin taşıyıcı çocuktan daha fazla A alel kopyası taşıdığı anne-çocuk ikili sayısını göstermektedir. Baba-çocuk ikilileri için, N F<C = I F<C = babanın taşıyıcı çocuktan daha az A alel kopyası taşıdığı baba-çocuk ikili sayısını göstermektedir. N F>C = I F>C = babanın taşıyıcı çocuktan daha fazla A alel kopyası taşıdığı baba-çocuk ikili sayısını göstermektedir Son olarak da, N N N ve N N N olmak üzere, yukarıda bulunan değerlerden faydalanılarak hesaplanır. B-KDAT istatistiği, maalesef, KDAT istatistiği gibi, H : İlişkilendirme yokturboş hipotezi altında, belirgin bir dağılıma sahip değildir. Belirgin bir dağılımının olmaması, bizleri test istatistiğinin önemliliğini test etmekten alıkoymaktadır. Bu nedenle, Hu ve Zhou (2010) B-KDAT istatistiğinin önemlilik testi için, ampirik bir dağılım oluşturma imkânı vermesi açısından permütasyon yöntemini önermektedirler. Permütasyon yöntemi, orijinal verideki gözlemlerin yerlerini, önceden belirlenmiş kurallar çerçevesinde ve belirtilen permütasyon sayısı kadar değiştirerek yeni veriler oluşturup, bu yeni oluşturulmuş olan her veri için de bahsi geçen test istatistiğinin teker teker hesaplanmasına dayanmaktadır. 54

64 Zhao vd. (2000) anne-baba-çoçuk üçlüsü genotip verisinin sırasını değiştirmek için bir permütasyon yöntemi önermiştir. Hu ve Zhou (2010) ise anne-çocuk ikilisi ve babaçocuk ikilisi genotip verisinin sırasını değiştirmek için kendi permütasyon yöntemlerini önermektedir. Sonrasında, Hu ve Zhou (2010) kendi yöntemleri ile Zhao vd. (2000) yöntemini de birleştirerek, B-KDAT istatistiği için permütasyonun nasıl yapılacağını anlatmaktadır. Bu bağlamda, Hu ve Zhou nun (2010) makalelerinde de belirtildiği üzere,b-kdat nin permütasyonu için gerekli aşamalar aşağıdaki gibi sıralanabilir. 1. Öncelikle, herhangi bir marker için, anne-baba-çocuk üçlüsü, anne-çocuk ikilisi ve baba-çocuk ikilisinden gelen genotip bilgilerine bakarak, B-KDAT test istatistiğinin değeri yukarıda verilen (5.1) denkleminden hesaplanır ve kaydedilir. 2. Permutasyon sayısı, mümkün olduğunca yüksek tutularak, mesela S=1000 olarak alınır. 3. Her bir permütasyon işlemi altında, anne-baba-çocuk üçlüsü genotip verisinin ve bir ebeveyn-çocuk ikilisi genotip verisinin sıraları ayrı ayrı değiştirilmek üzere iki parçadan oluşur. Şöyle ki, a) Anne-baba-çocuk üçlülerinden oluşan genotip verisi için, Zhao vd. (2000) önerdiği permütasyon yöntemi şu şekilde yapılır. Taşıyıcı çocuğa, anne ve babasından aktarılmış, kendi gerçek genotipi olsun veya olmasın, o markerde o anne ve babanın genotiplerinin eşleşmesinden ortaya çıkacak tüm olası genotiplerden bir tanesi, eşit olasılıkla rasgele olarak, taşıyıcı çocuğa, yeni genotip olarak atanır. Böylece anne-baba-çocuk üçlülerinde, taşıyıcı tüm çocukların genotipleri değiştirilmiş olur ve yeni bir anne-baba-çocuk üçlüsü genotip verisi oluşturulmuş olur. 55

65 b) Tek ebeveyn-çocuk ikililerinden oluşan genotip verisi için Hu ve Zhou nun (2010) önerdiği permütasyon yöntemi, biraz daha karışık olmak üzere, aşağıda verilen basamaklardan oluşmaktadır. i. {(C i, M i ), 1 i n m } ve {(C i, F i ), n m + 1 i n m +n p } dizileri sırasıyla n m tane anne-çocuk ikilisinin genotiplerini ve n p tane baba-çocuk ikilisinin genotiplerini göstersin. Burada, i.nci ebeveyn-çocuk ikilisinde, C i /M i /F i sırasıyla, çocuk/anne/ baba genotiplerini belirtir. ii. {1,...,n m, n m +1,..., n m +n p } dizisi permüte edilsin ve {j 1,..., j, j,.,j } dizisine dönüşmüş olsun. Böylece, n m tane anne-çocuk ikilisinin yeni genotipleri, C, M, aşağıda tanımlanan şekilde elde edilebilir. C, M C, M, eğer j n, 1 i n için F, C, eğer j n Benzer şekilde n p tane baba- çocuk ikilisinin yeni genotipleri, C, F, aşağıda tanımlanan şekilde elde edilebilir. C, F C, F, eğer j n, n i n n için M, C, eğer j n c) Sonra (a) da oluşturulmuş olan anne-baba-çocuk üçlüsü genotip verileri ile (b) de oluşturulmuş olan n m tane anne-çocuk ikilisi genotip verileri ve n p tane baba-çocuk ikilisi genotipleri verileri tamamlanmış bir permütasyon örneklemi oluşturmak üzere birleştirilir. d) Bu permütasyon sonucu elde edilmiş örneklem için B-KDAT istatistiği yukarıda verilen (5.1)denklem ile hesaplanır ve B KDAT olarak saklanır. 56

66 4. Basamak 3, S=1000 kez tekrar edilir ve her bir permüte edilmiş örneklem için B KDAT hesaplanır. Sonuçta toplam 1000 tane olmak üzere, B KDAT, B KDAT,.,B KDAT } değerleri elde edilmiş olur. 5. Bu B KDAT,B KDAT,.,B KDAT } dizisi aynı zamanda bize B-KDAT istatistiği için ampirik bir dağılım verir. P-değeri ise, aşağıdaki denklem (5.2) de verildiği üzere, 1.Basamakta hesaplanmış olan B-KDAT istatistiğinden değer olarak büyük olan B KDAT lerin sayısının bulunup, toplam permütasyon sayısına oranlanmasıyla hesaplanır. P değeri # ü ı ı (5.2) Hu ve Zhou (2010), B-KDAT yi haplotip verisi üzerine ve sadece bir kaç SNP için kullanırken, bu tez çalışmasında onlardan farklı olarak B-KDATgenotip verisi üzerine uygulandı. Başka bir deyişle, simülasyon çalışması ile üretilen 262,264 SNP için, 1-5 basamakları hesaplanarak, aralarından hastalıkla istatistiksel olarak önemli ilişkili olan SNP lerinbulunması hedeflendi. Yukarıda anlatılan permutasyon temelli birleşik kalıtımda dengesiz aktarım testi için takip edilen aşamalar, şekil 5.2 de bir akış diyagramı içerisinde verilmektedir. 57

67 Eldeki verilerden B-KDAT hesaplanır Üçlü ve ikili permutasyon verisi elde etmek için önerilen algoritmalardan istifade edilerek 1000 adet permutasyon verisi üretilir Her bir permutasyon verisi için B-KDAT * hesaplanır Hesaplanan 1000 adet B-KDAT * değerleri ile B- KDAT değeri karşılaştırılarak P-değeri hesaplanır Şekil 5.2 Permutasyon temelli B-KDAT uygulamasının akış diyagramı 5.2 Permütasyon Temelli B-KDATiçin Simülasyon Çalışması ve İstatistiksel Güç Analizi Huve Zhou (2010) makalelerinde yaptıkları simülasyon çalışmalarında, çalışmanın anne-baba-çocuk üçlüsü ve çocuk-ebeveyn ikilisinden oluşması durumunda, B-KDAT istatistiğinin, sadece anne-baba-çocuk üçlüsü kullanan KDAT ye göre daha güçlü sonuçlar verdiğini göstermektedir. Ne var ki, bu ve literatürdeki diğer çalışmalar, 58

68 elimizde az sayıda veri olduğunda B-KDAT nin istatistiksel gücü hakkında bilgi vermemektedir. Literatürdeki bu açığı kapatmak ve elimizdeki verinin yeterli olup olmadığını anlamak amacıyla, bu tez çalışması kapsamında, B-KDAT test istatistiğinin farklı örneklem büyüklükleri karşısındaki gücünü ölçmek için bir simülasyonçalışması düzenlenmiştir. Simülasyon çalışması beş ana aşamadan oluşmaktadır. Bu aşamalar aşağıda sırası ile verilmektedir: i) Simülasyon çalışmasında SNP leri, Affymetrix şirketinin ürünü olan ve bizim çalışmalarda kullanılan GeneChip Human Mapping 250K Nsp Array lerde mevcut bulunan sayıda yani 262,264 adet üretilmiştir. İlk önce anne ve baba verisi, birbirinden bağımsız olarak, AA, AB ve BB genotiplerini 0.33, 0.34 ve 0.33 olasılıkla içerecek şekilde üretilmiştir. Anne ve baba sayısına, aşağıda verilen, 7 farklı örneklem büyüklüğüne uygun olarak karar verilmiştir: 10 anne-baba-çocuk üçlüsü ve 4 anne veya baba-çocuk ikilisi. 30 anne-baba-çocuk üçlüsü ve 18 anne veya baba-çocuk ikilisi. 50 anne-baba-çocuk üçlüsü ve 30 anne veya baba-çocuk ikilisi. 70 anne-baba-çocuk üçlüsü ve 40 anne veya baba-çocuk ikilisi. 90 anne-baba-çocuk üçlüsü ve 55 anne veya baba-çocuk ikilisi. 110 anne-baba-çocuk üçlüsü ve 65 anne veya baba-çocuk ikilisi. 130 anne-baba-çocuk üçlüsü ve 75 anne veya baba-çocuk ikilisi. ii) Herhangi bir aile için, herhangi bir SNP üzerinde anne ve babanın genotipleri gözlemlendikten sonra, bu anne-baba çiftinden olacak bir çocuğun aynı SNP üzerinde alabileceği genotip değerlerini belirlemek için çizelge 5.1 den faydalanılmıştır. 59

69 Çizelge 5.1 Herhangi bir SNP te anne ve babanın genotipinin gözlemlenmesiüzerine,aynı SNP te çocuğun genotipinin alabileceği değerler Anne Baba Çocuk 1 AA AA AA 2 AA AB AA, AB 3 AA BB AB 4 AB AA AA, AB 5 AB AB AA, AB, AB, BB 6 AB BB AB, BB 7 BB AA AB 8 BB AB AB, BB 9 BB BB BB İstatistiksel güç analizi yapabilmek için ise, çocuğun genotipi için şu şekilde bir yol izlenmiştir: Herhangi bir çocuğa ait 262,264 SNP in %98 lik kısmını oluşturan 257,019 SNP, B-KDAT test istatistiğinde H : İlişkilendirme yokhipotezi lehine katkıda bulunacağı şekilde üretilmiştir. Bu sebeple, çizelge 5.2 de görüleceği üzere, B-KDAT test istatistiğinde yer alan T 0 &NT 0 veya T 1 & 1 şartlarını yerine getiren genotiplere 0.7 olasılık, yani yüksek olasılıklar verilerek, diğer kalan genotiplere ise 0.3olasılık, yani daha düşük olasılıklar verilerek üretim yapılmıştır. Örneğin, çizelge 5.3 de görüleceği gibi, annenin genotipinin AB, babanın genotipinin AB olarak gözlenmesi durumunda, çocuk 0.25 olasılıkla AA, 0.5 olasılıkla AB, 0.25 olasılıkla BB değeri alabilecekken, çocuğun AB olması H yönünde destekleyici olacağından, çocuğun AB olma olasılığı 0.7 olarak alınmıştır. 60

70 Geriye kalan 5,245 SNP (%2) ise H aleyhinde, yani, istatistiksel olarak önemli ilişki verecek şekilde üretilmiştir. Bu sebeple, çizelge 5.2 de görüleceği üzere, B-KDAT test istatistiğinde yer alan T 1 & 0, ve T 2 & 0 şartlarını yerine getiren genotiplere daha yüksek olasılıklar verilerek, diğer kalan genotiplere ise daha düşük olasılıklar verilerek üretim yapılmıştır. Aslında T 0 & 1 durumu da H i destekleyeci veri olsa da, bu koşulda üretilen veri T 1 & 0 koşuluyla üretilen veriyi B-KDATdenkleminde iptal edeceğinden kullanılmamıştır. Örneğin, aşağıdaki çizelgede de görüleceği gibi, annenin genotipinin AA, babanın genotipinin AB olarak gözlenmesi durumunda, çocuk 0.5 olasılıkla AA, 0.5 olasılıkla AB değeri alabilecekken, çocuğun AA olmasıh yönünde destekleyici olacağından, çocuğun AA olma olasılığı 0.7 olarak alınmıştır. Çizelge 5.2 Herhangi bir SNP te anne-baba-çocuk üçlüsü genotiplerinin, B-KDAT test istatistiğinde, T ve NT terimlerine olan katkıları Anne Baba Çocuk T NT 1 AA AA AA AA AB AA AA AB AB AA BB AB AB AA AA AB AA AB AB AB AA AB AB AB AB AB BB AB BB AB AB BB BB BB AA AB BB AB AB BB AB BB BB BB BB

71 iii) Anne veya baba çocuk ikilisinin SNP ler boyunca genotip değerlerinin üretiminden bahsetmek gerekirse, öncelikle birinci aşamada belirtilen sayıda anne ve baba için 262,264 SNP boyunca genotip üretimi rastgele olarak yapılmıştır. Herhangi bir aile için, herhangi bir SNP üzerinde annenin (ya da babanın) genotipi gözlemlendikten sonra, bu anneden (veya babadan) olacak bir çocuğun aynı SNP üzerinde alabileceği genotip değerleri için çizelge 5.3 ten faydalanılmıştır. Çizelge 5.3Herhangi bir SNP te anne veya babanın genotipinin gözlemlenmesiüzerine, aynı SNP te çocuğun genotipinin alabileceği değerler ve bu genotiplerinb-kdat test istatistiğinde, N, N ve N terimlerine olan katkıları. Anne veya Baba Çocuk Frekans 1 AA AA AA AB AB AA AB AB AB BB BB AB BB BB İstatistiksel güç analizi yapabilmek için, çocuğun genotipi için ortaya çıkan değerlerin olasılıkları için de benzer bir yol izlenmiştir: 62

72 Herhangi bir çocuk için 262,264 SNP in %98 lik kısmını oluşturan 257,019 SNP, B-KDAT test istatistiğinde H : İlişkilendirme yok hipotezi lehine katkıda bulunacağını düşündüğümüz şekilde üretilmiştir. Bu sebeple, çizelge 5.3 te görüleceği üzere, B-KDAT test istatistiğinde yer alan N 1(ya da N 1 şartlarını yerine getiren genotiplere 0.7 olasılık verilerek, yani yüksek olasılık, diğer kalan genotiplere ise 0.3 olasılık verilerek, yani nispeten daha düşük olasılık, üretim yapılmıştır. Örneğin, yukarıdaki tabloda da görüleceği gibi, annenin (veya babanın) genotipinin AA olarak gözlenmesi durumunda, çocuk 0.5 olasılıkla AA, 0.5 olasılıkla AB olabilecekken, çocuğun AA olmasıh yönünde destekleyici olacağından, çocuğun AA olma olasılığı 0.7 olarak alınmıştır. Geriye kalan 5,245 SNP (%2) ise H aleyhinde, yani, istatistiksel olarak önemli ilişki verecek şekilde düzenlenmiştir. Bu sebeple, yukarıdaki tabloda görüleceği üzere, B-KDAT test istatistiğinde yer alan N 1(ya da N 1 şartlarını yerine getiren genotiplere daha yüksek olasılıklar verilerek, diğer kalan genotiplere ise daha düşük olasılıklar verilerek üretim yapılmıştır. Örneğin, yine yukarıdaki tablodan da görüleceği gibi, annenin (veya babanın) genotipinin AB olarak gözlenmesi durumunda, çocuğun genotipinin AA olması olasılığı H yönünde destekleyici olacağından; yine aynı şekilde annenin (veya babanın) genotipinin BB olarak gözlenmesi durumunda, çocuğun genotipinin AB olması durumuna yüksek olasılıklar atanmıştır. iv) Bu aşamada amaç, verilen örneklem büyüklüğünde, her bir simülasyon tekrarı için, belirtilen sayı adeti kadar, anne-baba-çocuk üçlüsü ve anne-çocuk veya baba-çocuk ikilisi için 262,264 SNP boyunca genotip bilgisi üretildikten sonra, geriye kalan, üretilen veriye orijinal veri gibi davranıp, her bir SNP altında, bu orijinal veriden bölüm 5.1 anlatıldığı gibi 1000 adet permütasyon verisi üretmek, o SNP için B-KDAT ve B KDAT,B KDAT,.,B KDAT } dizisini, ve denklem (5.4) den yararlanarak P-değerini hesaplamaktır. 63

73 v) İstatistiksel çoklu test etme kurallarına uygun olması açısından bu 262,264 P- değeri çoklu test düzeltmesi (multiple test correction) ile düzeltilmiştir. Çoklu testlerde ortaya çıkan hatalı pozitif lerden dolayı çoklu test düzeltmesi ile elde edilen P-değerleri düzeltilmektedir. Bu çalışmada Benjamini and Hochberg False Discovery Rate yöntemi tercih edilmiştir (Benjamini ve Hochberg 1995). Bu yöntemin tercihi hem güçlü düzeltme hem de en az hatalı negatif vermesinden kaynaklanmaktadır. Seçtiğimiz yöntemin çalışma mekanizması aşağıda verilmektedir: P-değerleri en küçükten en büyüğe sıralanır, a. En büyük P-değeri hiçbir değişiklik yapılmadan aynen bırakılır, b. En büyük ikinci P-değeri, SNP listesindeki toplam SNP sayısı ile çarpılarak sıra numarasına bölünür, Düzeltilmiş P-değeri = P-değeri * n /( n 1) c. Üçüncü P-değeri c basamağında olduğu gibi çarpılır, Düzeltilmiş P-değeri = P-değeri * n /( n 2) Ve böyle n-(#toplam_snp-1) kadar devam etmektedir. vi) Anlamlılık düzeyi olarak alınmıştır. Başka bir deyişle, düzeltilmiş P- değeri den küçük olan SNP ler hastalıkla ilişkili olarak sınıflandırılmıştır. Her bir örneklem büyüklüğü altında,her simülasyon verisi için, ilk olarak, H : İlişkilendirme yok hipotezi altında üretilen 257,019 SNP ten elde edilen düzeltilmiş P-değerlerinin, α (%0.2) ile kıyaslaması yapılarak, Yanlış Pozitif Oranı = I.Tip Hata Olasılığı = P(H 0 ꞌ 1 reddet H 0 doğru iken) = # ( P deg eri 0.002) 257,019 64

74 hesaplanmış, sonrasında ise, H : İlişkilendirme var hipotezi altında üretilen 5,245 SNP ten elde edilendüzeltilmiş P-değerlerinin, α(%0.2) ile kıyaslaması yapılarak, ꞌ Yanlış Negatif Oranı = II.Tip Hata Olasılığı = P(H 0 1 kabul et H 1 doğru iken) #( P deg eri > 0.002) = 5,245 hesaplanmış, daha sonra, buradan yola çıkarak da, Doğru Pozitif Oranı Testin Gücü P H ı reddet H doğru iken hesaplanmıştır. vii) Her bir örneklem büyüklüğü içinsimülasyon çalışması 100 kez tekrar edilmiştir. Oranlar her simülasyon verisi için hesaplandığından, örneğin 100 adet test gücü elde edilmiştir. Bunları özetlemek için, 100 tane oranın ortalaması alınmıştır. Tüm örneklem büyüklüklerinde tekrar edilen bu işlemler, sonuç olarak çizelge 5.4 de özetlenmiştir. Çizelge 5.4 Örneklem büyüklüklerine göre güç ve hesaplanmış anlamlılık düzeyleri Anne-babaçocuk üçlüsü Aile türü Anne veya babaçocuk ikilisi Güç (%) Hesaplanmış anlamlılık düzeyi (%) Simülasyon çalışmasının sonucunda, beklenildiği gibi, örneklem büyüklüğü arttıkça, testin gücünün arttığı ve hesaplanmış anlamlılık düzeyinin ise düşerek, gerçek değer olan %5 e yaklaştığı gözlemlenmiştir. Ayrıca, 50 anne-baba-çocuk-üçlüsü ve 30 anne 65

75 veya baba-çocuk ikilisine ait verinin toplanmasıyla %83 e yakın bir güç elde edildiği gözlenmiştir. İstatistiksel analizlerde genellikle %80 in üstünde bir güç hedeflendiğinden, 50 adet üçlü ve 30 adet ikili veri toplanabildiğinde,hedeflenen yüzdenin az üzerinde, iyi bir sonuç elde edildiği saptanmıştır. Son olarak, B-KDAT istatistiği hakkında şunlar söylenebilir: Daha önce de belirtildiği üzere, çalışmanın anne-baba-çocuk üçlüsü ve çocuk-ebeveyn ikilisinden oluşması durumunda, B-KDAT istatistiğinin, sadece anne-baba-çocuk üçlüsü kullanan KDAT ye göre daha güçlü sonuçlar verdiği gösterilmiştir (Huve Zhou 2010). Diğer bir taraftan, bu test istatistiği asimptotik bir dağılım yerine, permütasyon yöntemine dayandığı için, küçük örneklem büyüklüklerinde de etkili bir şekilde kullanılabildiği simülasyon çalışmaları ile gösterilmiştir. Yalnız bu yöntem birden fazla taşıyıcı çocuktan oluşan ailelere veya tamamıyla sadece anne-çocuk ikililerinden ya da tamamıyla sadece babaçocuk ikililerinden oluşan çalışmalara uygulanamaz (Huve Zhou 2010). Ayrıca, bu test istatistiği, bir ebeveynin kayıp olma sebebinin genotipinin olmadığı şartını arayan, tamamıyla rassal kayıp varsayımı altında çalışır (Huve Zhou 2010). Son olarak değinilmesi gereken bir diğer nokta ise, permütasyon yöntemlerinin yoğun hesaplama gerektirmesi, bunun da hesaplama süresini uzatmasıdır. Bu sebeple çalışmada, programlama için C programlama dili kullanılmıştır. 66

76 6. SONUÇ Son yıllarda, moleküler genetik alanında kaydedilen önemli gelişmeler, bazı hastalıklara yatkınlık oluşturan, bazılarından da sorumlu olan genlerin, genetik çalışmalarla belirlenmesini olanaklı hale getirmiştir. Birçok genin beraber hareketle oluşturdukları etki ile poligenik kalıtım gösteren kompleks insan hastalıklarında, moleküler genetiğinin çözümlenmesi için yoğun çalışmalar sürdürülmektedir. Bu doğrultuda hastalık genlerinin konumunu haritalandırmak için yapılan ilişkilendirme çalışmalarına mikro dizin teknolojisi katkıda bulunmaktadır. Aile temelli ilişkilendirme çalışmalarında, yoğun bir şekilde kullanılan mikro dizin teknolojisi ürünleri ile elde edilen bulguların doğru analizinin yapılabilmesi çok büyük önem arz eden bir konudur. Yeterli bir veriye sahip olunamadığı zamanlarda, bu çokça karşılaşılan bir durumdur, sağlıklı veri analizi mümkün görülmemektedir. Ardışık hipotez test kullanımını, ilişkilendirme çalışmalarına dâhil ederek, küçük örneklem boyutunda elde edilen verilerin sağlıklı analizi mümkün kılınmıştır. İlişkilendirme çalışmalarında geleneksel olarak kullanılan bir metot olan kalıtımda dengesiz aktarım testi simülasyon çalışması ile üretilen veri üzerinde denenmiştir. Simülasyon çalışmasında, ilgili olan SNP verileri, belli bir varsayım altında ve toplamda 200 anne-baba-çocuk üçlüsünü bulacak şekilde üretilmiştir. Anlamlı olmayan ilişkilendirme, az veya orta düzey ilişkilendirme ve yüksek düzey ilişkilendirme başlıkları altında üretilen, toplamda 270,000 SNP, üç düzey varsayımı ile sınıflandırılmıştır. Kalıtımda dengesiz aktarım testinin, az veya orta düzey ilişkilendirme ve yüksek düzey ilişkilendirme varsayımı altında üretilen verilerde, küçük örneklem boyutunda çok düşük oranlarda doğru pozitif ve hatalı negatif değerleri bulduğu görülmüştür. Büyük örneklem boyutları için ise bu oranlar yükselmiştir. Sonuç olarak, kalıtımda dengesiz aktarım testinin büyük örneklem boyutunda iyi analiz yaptığı, fakat küçük örneklem boyutunda performansının düşük olduğu belirlenmiştir. Geç yaşlarda ortaya çıkan hastalıklarda, anne-baba-çocuk üçlü genotip verisine ulaşabilmek çok zor, bazen ise imkânsız olabilmektedir. Dolayısıyla, büyük örneklem 67

77 boyutuna ulaşamadan, yüksek performansta bir veri analizi yapabilmek büyük bir sorun olarak karşımıza çıkmaktadır. Ardışık olasılık oran testi çalışmanın başında örneklem sayısına karar vermediği için alternatif olarak düşünülmüştür. Simülasyon çalışması ile belli bir varsayım altında üretilen veriye ardışık olasılık oran testi ve kalıtımda dengesiz aktarım testi uygulanmıştır. Duyarlılık, belirlilik, pozitif ve negatif ön görü değeri ve doğruluk değerleri her iki yöntem için de hesaplanmış ve ardışık olasılık oran testinin tüm bu ölçütlerde her üçlü sayısı için kalıtımda dengesiz aktarım testinden üstün olduğu gözlenmiştir. Özellikle küçük örneklem boyutunda ardışık olasılık oran testi çok yüksek bir performans sergilemiştir. Kalıtımda dengesiz aktarım testinden farklı olarak ardışık olasılık oran testi elde edilen bulguları hemen anlamlı veya anlamsız diye sınıflandırmamış, bir gri bölge oluşturarak karar veremediği bulguları oraya atmış ve daha fazla örnek sayısına ihtiyaç duyduğunu belirtmiştir. Bu tez kapsamında, ardışık olasılık oran testinin aile temelli ilişkilendirme çalışmalarında küçük örneklem boyutunda yüksek bir performans sergileyebildiği belirlenmiş ve özgün bir yaklaşım olarak önerilmiştir. Aile temelli ilişkilendirme çalışmalarında, anne-baba-çocuk üçlüsünden oluşan ailelerin yanında, anne veya babadan sadece bir tanesinin olduğu, anne-çocuk ikilisi ve babaçocuk ikilisinden oluşan ailelerin de gözlenmesi söz konusudur. Her iki kapsamdaki verilerin, yani üçlü ve ikili aileleri, beraber analizlerinin yapılabilmesi için birleşik kalıtımda dengesiz aktarım testi kullanılmıştır. Birleşik aktarımda dengesiz aktarım testi belirgin bir dağılıma sahip olmadığından, ampirik bir dağılım oluşturabilmek için permütasyon yöntemi kullanılmıştır. Birleşik kalıtımda dengesiz aktarım testinin güç analizini yapabilmek için, belirli varsayımlar altında yeni bir simülasyon verisi üretilmiştir. Üretilen veri üzerine test uygulanmıştır. Elde edilen bulgular, permutasyon temelli birleşik kalıtımda dengesiz aktarım testinin küçük örneklem boyutu diyebileceğimiz, 50 adet anne-baba-çocuk üçlüsü ve 30 adet anne-çocuk veya babaçocuk ikilisi ile istatistiksel analizlerde genellikle hedeflenen %80 in üstünde bir güç yüzdesiyle, iyi bir sonuç vermiştir.özetle, tez kapsamında birleşik kalıtımda dengesiz aktarım testi için güç analizi yapılmış ve örneklem büyüklüğü arttıkça, testin gücünün arttığı belirlenmiştir. Test istatistiği asimptotik bir dağılım yerine, permütasyon 68

78 yöntemine dayandığı için, küçük örneklem büyüklüklerinde de etkili bir şekilde kullanılabileceği simülasyon çalışmaları ile belirlenmiştir. Sonuçta, ilk olarak bu tez çalışması ile birlikte, ilişkilendirme çalışmaları literatürüne yeni özgün bir yöntem katılmıştır. Bu yöntem, aile temelli ilişkilendirme çalışmalarında küçük örneklem boyutu sorununu çözmek için önerilmiş, ardışık olasılık oran testidir. Geleneksel metot olan kalıtımda dengesiz aktarım testinden farklı olarak küçük örneklem boyutunda yüksek performans ortaya koymaktadır. Duyarlılık, belirlilik, pozitif ve negatif ön görü değeri ve doğruluk değerleri hem kalıtımda dengesiz aktarım testi hem de ardışık olasılık oran testi için hesaplanmış ve ardışık olasılık oran testinin tüm bu ölçütlerde her üçlü sayısı için kalıtımda dengesiz aktarım testinden üstün olduğu gözlenmiştir. Araştırmacının az veriye sahip olduğu durumlarda, ardışık olasılık oran testi tüm SNP ler için cevap veremiyor olsa da, anlamlı ve anlamsız diye sınıflandırdığı SNP leri doğru tanımlamaktadır. 200 tane anne-baba-çocuk üçlüsü ve üzeri durumlar için oluşan büyük örneklem boyutunda, ardışık olasılık oran testi tüm SNP leri kalıtımda dengesiz aktarım testi gibi doğru tanımlayabildiğinden, hem küçük örneklem boyutu hem de büyük örneklem boyutu için güvenle kullanılabilir. İkinci olarak, permütasyon temelli birleşik kalıtımda dengesiz aktarım testi için, simülasyon çalışması ile, istatistiksel güç analizi hesaplanmıştır.anne-baba-çocuk üçlüsü verileri ile beraber anne-çocuk veya baba-çocuk ikilisinden oluşan ailelerin bilgisinin olduğu durumlarda, permütasyon temelli birleşik kalıtımda dengesiz aktarım testinin küçük örneklem boyutu için kullanılabileceği yapılan güç analizi ile gösterilmiştir. 69

79 KAYNAKLAR Akarsu, N. ve Çakır, B Psikiyatrik genetik araştırmalarda kullanılabilecekgenetik yöntemler: IV-A. Hastalık geni haritalanması. 3P Dergisi, 12(Ek1) s Akarsu, N. ve Lüleci, G Gen haritalaması: Ne demek, haritalar nasıl oluşturuluyor, neler içeriyor, nasıl yorumlanıyor. DEU Tıp Fakültesi Dergisi özel sayısı s Allen, A. S., Rathouz, P. J. andsatten, G.A Informative missingness in genetic association studies: case-parent designs. American Journal of Human Genetics Vol. 72(3) pp Benjamini, Y. and Hochberg, Y Controlling the False Discovery Rate: a Practical and Powerful Approach to Multiple Testing, Journal of the Royal Statistical Society B,Vol. 57 pp Bowcock, A. M Genomics: Guilt by association. Nature, Vol.(447) pp Brown, J. J., Ollier, W. E. R., Thomson, W., Matthews, J. B., Carter, S. D., Binns, M., Pinchbeck, G. and Clegg, P. D TNF-a SNP haplotype frequencies in equidae.tissue Antigens, Vol.67(5) pp Cardon, L. R. and Palmer L. J Population stratification and spurious allelic association.lancet,vol. 361(9357) pp Cervino, A.C.,Lakiss, S., Sow, O. and Hill, A.V Allelic association between the NRAMP1 gene and susceptibility to tuberculosis in Guinea-Conakry. Ann J Hum Genet,Vol. 64(6) pp Chen, W. M. and Deng H. W A general and accurate approach for computing the statistical power of the transmission disequilibrium test for complex disease genes. Genet Epidemiol, Vol. 21(1) pp Cichon, S., Craddock, N., Daly, M., Faraone, S. V., Gejman, P. V., Kelsoe, J., Lehner, T., Levinson, D. F., Moran, A., Sklar P. and Sullivan P. F Genomewide association studies: history, rationale, and prospects for psychiatric disorders. Am J Psychiatry, Vol. 166(5) pp

80 Dracopoli, N.C., H. J., Korf, B.R., Moir, D.T., Morton, C.C., Seidman, C.E., Seidman, J.G., Smith, D.R.,, Ed Genetic Mapping : Current Protocols in Human Genetics. First edition, John Wiley and Sons Inc. Duncan, C., Thomas, R. and Duggan D Recent Developments in Genomewide Association Scans: A Workshop Summary and Review. Am. J. Hum. Genet Vol. (77) pp Ewens, W. J.and Spielman, R. S The transmission/disequilibrium test: history, subdivision, and admixture. Am J Hum Genet Vol. 57(2) pp Gupta, S., Narang, S., Nunavath, V. and Singh, S Chronic 71ort he71 in HIV patients: prevalence of coccidian parasites. Indian Journal of Medical Microbiology, Vol. 26(2) pp Hardy, J. and Singleton, A Genomewide Association Studies and Human Disease. N Eng J Med.,Vol. 360(17) pp Hu, Y. Q. and Zhou, Y.J Inferring haplotype/disease association by joint use of case-parents trios and case-parent pairs.annals of Human Genetics, Vol. (74)pp Ilk, O., Rajabli, F., Ciglidag-Dungul, D., Ozdag, H., Ilk, H.G A novel approach forsmall sample size family-basedassociation studies: sequential tests. European Journal of Human Genetics, (DOI: /ejhg , 2011). Kharrat, N., Ayadi, I., Rebai, A Sample size computation for association studies using case-parent design. Journal of Genetics, Vol. 85(3) pp Klug, S.W. and Cummings, W.R Concept of Genetics, Prentice Hall, New Jersey, USA, 745 sayfa. Kruglyak, L The Road To Genome-Wide Association Studies. Nature Review Genetics, Vol. 9 pp Manolio, T.A. and Collins, F.S The HapMap and Genome-Wide Association Studiesin Diagnosis and Therapy. Annu Rev Med., Vol. 60 pp McCarthy, M.I., Abecasis, G.R., Cardon, L.R., Goldstein, D.B., Little, J., Ioannidis, J.P.,Hirschhorn, J.N Genome-wide association studies for complex traits: consensus, uncertainty and challenges. Nat Rev Genet., Vol. 9(5) pp

81 Miller, R.D., Kwok, P.Y The birth and death of human single-nucleotide polymorphisms: new experimental evidence and implications for human history and medicine. Human Molecular Genetics, Vol. 10 pp Moore, M.A., Baumann, F., Foliaki, S., Goodman, M. T., Haddock, R., Maraka, R., Koroivueta, J., Roder, D., Vinit, T., Whippy, H.J.D., Sobue, T Cancer epidemiology in the pacific islands past, present and future Asian Pacific journal of cancerprevention. APJCP, Vol. 11(2) pp Pharoah, P. D., Dunning, A. M., Ponder, B. A., Easton, D.F Association studies for finding cancer-susceptibility genetic variants. Nat Rev Cancer, Vol. 4(11): pp Schaid, D. J Likelihoods and TDT 72ort he case-parents design. Genetic Epidemiology, Vol. 16 pp Schork, N. J Genetically complex cardiovascular traits: origins, problems, and potential solutions. Hypertension, Vol. 29 pp Spielman, R. S. and Ewens, W. J A sibship test for linkage in the presence of association: the sib transmission/disequilibrium test. Am J Hum Genet, Vol. 62(2) pp Spielman, R. S., McGinnis, R. E., Ewens, W.J Transmission test for linkage disequilibrium: the insulin gene region and insulin-dependent diabetes mellitus (IDDM). Am J Hum Genet, Vol. 52(3) pp van der Lee, J. H., Wesseling, J., Tanck, M.W.T., Offringa, M Efficient ways exist toobtain the optimal sample size in clinical trials in rare diseases. Journal of Clinical Epidemiology, Vol. 61 pp van der Tweel, I. and van Noord, P. A Early stopping in clinical trials and epidemiologic studies for "futility": conditional power versus sequential analysis. J Clin Epidemiol, Vol. 56(7) pp Wald, A Sequential Analysis. New York: John Wiley and Sons. Weinberg, C. R Allowing for missing parents in genetic studies of case-parent triads.am J Hum Genet, Vol. 64(4) pp

82 Wang, D., Sun, F Sample Sizes For The Transmission Disequilibrium Tests: TDT, S-TDT and 1-TDT. Communications in Statistics - Theory and Methods, Vol. 29 pp Webb E. L., Houlston, R. S Association studies using familial cases: anefficient strategy for identifying low-penetrance disease alleles.methods in molecular biology, Vol.376 pp Wetherill, G.B Sequential Methods in Statistics. Chapman and Hall. USA. Yende, S., Kammerer, C. M. and Angus, D. C Bench-to-bedside review: Genetics and proteomics: deciphering gene association studies in critical illness. Critical Care, Vol. 10(4) pp Zhao, H., Zhang, S., Merikangas, K.R., Trixler, M., Wildenauer, D.B., Sun, F., Kidd, K.K Transmission/disequilibrium tests using multiple tightly linked markers. Am Hum Genet Vol. 67(4) pp

83 ÖZGEÇMİŞ Adı Soyadı : Farid RAJABLI Doğum Yeri : Azerbaycan Doğum Tarihi : Medeni Hali : Evli Yabancı Dili : İngilizce, Rusça, Türkçe Eğitim Durumu (Kurum ve Yıl) Lise : Lenkeran 9 Orta Mektebi-L.Ö.T.L (1997) Lisans Yüksek Lisans : Bilkent Üniversitesi Elektrik-Elektronik Mühendisliği, (2002) :Ankara Üniversitesi Fen Bilimleri Enstitüsü Elektronik Mühendisliği Anabilim Dalı (2005) Yayınları (SCI ve diğer) Ilk, O., Rajabli, F., Ciglidag Dungul, D., Ozdag, H., Ilk, H.G A novel approach for small sample size family-based association studies: sequential tests. European Journal of Human Genetics, (DOI: /ejhg , 2011).(SCI) Dungul, D.C., Rajabli, F., Inan, G., Belder, N., Gecim, E., Kuzu, A., Savas, B., Ensari, A., Ilk, H.G., Ilk, O., Ozdag, H A Family Based Genome Wide Association Study in Turkish Sporadic Colorectal Cancer Cases, Genes & Cancer 2010: 27th Annual "Molecular Biology of Cancer" meeting, pp. 48, Warwick, U.K. [poster]. Inan,G.,Rajabli, F. and Ilk,O A simulation study on joint use of caseparent trios and case-parent pairs for family-based genome-wide association studies. The 6 th International Symposium on Health Informatics and Bioinformatics, (HIBIT 2011). Accepted for publication. [poster] 74

Daha göster