Veri madencili i yöntemleriyle mikrodizilim gen ifade analizi

Transkript

1 DERLEME REVIEW Hacettepe T p Dergisi 2011; 42: Veri madencili i yöntemleriyle mikrodizilim gen ifade analizi Erdal Coflgun 1, Ergun Karaa ao lu 2 1 Araştırma Görevlisi Dr., Hacettepe Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı, Ankara 2 Prof. Dr., Hacettepe Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı, Ankara ÖZET İnsan genom projesi ile elde edilen bilgi birikimine paralel olarak mikrodizilim teknolojisi de gelişmiştir. Bu teknoloji ile özellikle genlerin işlevleri ve genomdaki düzenleme mekanizmalarını belirlemede ilerleme sağlanmıştır. Bu noktada veri madenciliği yöntemleri araştırmacıların en büyük yardımcısı haline gelmiştir. Bunun en önemli sebebi mikrodizilim veri setlerinin analizinde klasik istatistiksel yöntemlerin bazı varsayımlarından dolayı (normal dağılım, varyansların homojenliği) kullanılamamasıdır. Veri madenciliği yöntemleri ise hemen hemen hiçbir varsayıma ihtiyaç duymadan analizleri doğru şekilde sonuçlandırır. Bu çalışmadaki amaç gen ekspresyon verilerinin analizindeki temel akış şemasını ortaya koymaktır. Bunlar sırasıyla boyut indirgeme, genelleştirme yönteminin seçimi, danışmanlı-danışmansız öğrenme yöntemleri, performans kriterleri ve gen ontolojisidir. Bu çalışma ile ülkemizde genetik araştırmalar yapan bilim insanlarına veri analizi konusunda yardımcı olabilecek alternatif yöntemler ve araçlar birarada sunulmuştur. Anahtar Kelimeler: Biyoinformatik, veri madenciliği, mikrodizilim gen ekspresyon verisi, sınıflama, kümeleme. ABSTRACT Microarray gene expression data analysis with data mining methods In parallel with the accumulation of information obtained from the human genome project, microarray technology has also developed. With this technology, progress has been made especially in the functions of genes and regulatory mechanisms and determining in the genome. Data mining methods have become the most important suppertive to the researchers at this point. The most important reason of that is the lack of use of the methods of classical statistics due to certain assumptions (normal distribution, homogenity of variances) in analyzing the microarray data sets. Data mining methods on the other hand conclude the analyzes correctly almost requiring no assumption. The aim of this study is to introduce the main flow chart in the analyzing of gene expressing data. These are dimension reduction, selecting the method of generalization, supervisedunsupervised methods, performance criteria and gene ontology, in order. By this study, alternative methods and resources, which will help the scientists who work in genetic researches in our country in the analyzing of data, have been introduced together. Key Words: Bioinformatics, data mining, microarray gene expression data, classification, clustering. 180 H ACETTEPE T IP D ERG S

2 Veri madencili i yöntemleriyle mikrodizilim gen ifade analizi Veri madenciliği (VM, Data Mining) yaklaşımlarının çok boyutlu verilerde kullanımı son yıllarda sıklıkla görülmektedir [1]. Bu tip verilere en güzel örnek genetik araştırmalar sonucu elde edilen verilerdir. Özellikle mikrodizilim (microarray) gen ifade araştırmaları sonucunda binlerce gene ait ifade (ekspresyon) düzeylerini içeren veri matrisleri elde edilir. Ancak verilerin sadece elde edilmesi yeterli olmamaktadır. Bu verileri doğru ve yansız biçimde analiz edebilecek istatistiksel modellere ihtiyaç duyulmaktadır. Veri madenciliği yöntemlerinin yaygın şekilde kullanıldığı klinik çalışmalar mikrodizilim gen ifade çalışmalarıdır [2-9]. İnsan genomunda yaklaşık 40,000 gen bulunduğu göz önüne alındığında bu kadar çok genin tek tek analizi mümkün değildir. Fakat günümüzde, geliştirilen otomasyona dayalı sistemlerle çok fazla sayıdaki genin aynı anda analizi mümkün hale gelmiştir. Bu analizlerin önemli bir bölümünü genlerin sınıflanması ve önemli genlerin bulunması oluşturmaktadır. Ülkemizde de bu araştırmalara ayrılan kaynak miktarı giderek artmaktadır. Ancak genetik araştırmalar hem maliyeti hem de ölçümlerin tekrar edilmesindeki zorluklar nedeniyle çok fazla hasta üzerinde yapılamamaktadır. Bu nedenle az sayıdaki hastaya ait binlerce gen verisi üzerinden bazı yorumlara ulaşılmak durumunda kalınmıştır. Klasik istatistiksel yöntemler (lojistik regresyon, varyans analizi, doğrusal regresyon analizi) bu tip verileri açıklamakta sorun yaşamaktadır. Son dönemde bu tip veriler üzerinde destek vektör makineleri (SVM: Support Vector Machine), karar ağaçları, Boosted Tree Random Forest gibi birçok veri madenciliği yöntemi denenmiş ve iyi sonuçlar elde edilmiştir [3-6, 10-13]. HASTALAR Cilt 42 Say GENLER Şekil 1. Temel ekspresyon verisinin yansıma görüntüsü. Genlerin kümelenmesi de birçok araştırmanın temel çıkış noktası olmuştur. Bu yaklaşımdaki temel amaç benzer özellikteki genleri, farklı uzaklık ölçüleri kullanarak biraraya getirmektir. Bu yaklaşım özellikle kanser araştırmalarında önem kazanmaktadır. Çünkü genler arasındaki ilişkiler hakkında az da olsa fikir sahibi olmak, hastalık tedavilerinde çok önemli olarak görülmektedir. Literatürde en sık kullanılan kümeleme yöntemleri K-Ortalama (K-Means) ve Kohonen Map kümeleme yöntemleridir [4,11,13]. Gen ifade analizi verileri yardımıyla önemli genlerin seçimi ve hastaların sınıflanması da başlıca veri madenciliği çalışmalarındandır [14-17]. Buradaki temel amaç, ilgili fenotipi etkileyen bir grup gen setinin bulunmasıdır. Belirlenecek önemli genlerin seçimi tedavi süresini ve başarısını doğrudan etkilemektedir. Özellikle ilaç geliştirmede aday genlerin belirlenmesi standart bir yaklaşım haline gelmiştir. M KROD Z L M VER LER ve ÖZELL KLER Mikrodizilim gen ifade verisi veri madenciliği için, m-bireyleri, n-genleri ifade eden m x n boyutlu bir matristir [18]. DNA mikrodizilimi cam, plastik veya silikon çip gibi katı bir yüzeye tutturularak sıralı bir şekilde (array) oluşturulmuş mikroskobik DNA spotlarıdır. Bir mikrodizilimde bu spotlardan on binlerce bulunabilir. Yüzeye tutturulan bu DNA parçaları (genellikle nükleotid uzunluğunda) prob olarak tanımlanmıştır. Bu teknik özünde bir cam lam veya naylon zar üzerine kısa ve RNA sentezinde kullanan yüzlerce/binlerce DNA hedef dizilimlerinin yerleştirilmesi ve incelenecek cdna nın floresan/radyoaktif işaretlemenin ardından yerleştirilmiş DNA ile biraraya getirilerek işleme alınması bulunmaktadır [19] (Şekil 1). Bu teknikte membran yerine camın kullanılması, radyoaktivitenin yerini floresan işaretlerin alması ve bağlanmayı sağlayacak yöntemlerin hassaslaşmasıyla çalışmaların verimi ve elde edilen bilgilerin miktarı artmıştır [20]. VER ANAL Z ARAÇLARI Gen ekspresyon verisi elde edilip depolandıktan sonra en önemli aşama, biyolojik örüntülerin gözlenen fenotip üzerine etkisini belirlemektir. Genetik verilerin analizi bilinen klasik istatistiksel yöntemlerin (t-testleri, varyans analizleri) ötesinde veri madenciliği yöntemlerini kullanmayı gerektirmektedir. Bunun en önemli nedeni, veri madenciliği yöntemlerinin çok yüksek boyutlu verilerde doğrusal olmayan ilişkileri belirlemede avantaja sahip olmasıdır. Son yıllarda işte bu avantajlı yöntemlerin kullanılabilmesi için birçoğu açık kaynak kodlu program geliştirilmiştir. Bunlardan en önemli üç tanesi şunlardır: 181

3 Coflgun ve Karaa ao lu 1. [R] [R], veri madenciliği çalışan her araştırmacı için standart olan, açık kaynak kodlu ve ücretsiz bir yazılımdır. [R] programının mantığı her analiz için kullanılabilecek analiz paketlerine sahip olmasıdır. Kullanıcılar yapmak istedikleri analize ait paketi indirdikten sonra ilgili paketin kullanım kılavuzuna göre analizlere devam eder. [R] nin en önemli avantajı diğer paket programlara göre çok hızlı olmasıdır. Standart bir bilgisayar konfigürasyonu ile (örn. 2 GB RAM ve 2.13 GHz işlemci) çok büyük veri setleri kısa sürede analiz edilebilir. Bu programa ait tüm bilgiye bağlantısından yöntemlerin paketlerine ait tam listeye ise: org/src/contrib/packa- GES.html bağlantısından ulaşılabilir. Bu çalışma kapsamındaki veri madenciliği yöntemlerine ait [R] paketleri Tablo 1 de verilmiştir. Bu paketlerin dışında ilgili yöntemler için kullanılabilecek başka kaynak paketler de bulunabilir. 2. WEKA Tablo 1. Çalışma kapsamında kullanılması önerilen [R] paketleri Analiz [R] paketi Gen ontolojisi topgo, GOSim Bootstrap boot, bootstrap Random forest randomforest Destek vektör makinesi e1071, Sınıflama ve regresyon ağaçları (CART) rpart C 4.5 RWeka CHAID rpart Boosted tree yöntemi gbm Kohonen map kohonen Bağımsız bileşenler analizi fastica Veri madenciliği çalışmalarında kullanılan bir diğer açık kaynak kodlu ve ücretsiz program WEKA dır [21]. WEKA nın en önemli avantajı Java dilinde yazılmış olmasıdır. Bu nedenle hemen hemen tüm işletim sistemlerinde (Linux, Mac, Sun, Windows) çalışabilmektedir. WEKA çok zengin bir içeriğe sahiptir. Bu çalışma kapsamında da bahsedilen danışmanlı ve danışmansız öğrenme teknikleri, kümeleme, birliktelik kuralları gibi birçok yönteme ait paketlere sahiptir. Çapraz geçerlilik ve bootstrap analizleri için özel komutları içerir. Son dönemde getirdiği yeniliklerden biri de Perl ve R programlama dillerinin komutlarını doğrudan çalıştırabilmesidir. Bu yazılım ile ilgili ayrıntılı bilgiye waikato.ac.nz/ml/weka bağlantısından ulaşılabilir. 3. ORANGE Ücretsiz şekilde ulaşılabilen bir diğer yazılım da ORANGE dir [22]. ORANGE yi diğer yazılımlardan ayıran en önemli nokta görsel bir analiz penceresine sahip olmasıdır. Yöntemler ve araçlar küçük ikonlar halindedir. Kullanıcılar yapmak istedikleri analizlere ait ikonları canvas denilen çalışma alanına taşırlar ve analiz modellerini bu ikonlar arası bağlantı yolları kurarak oluştururlar. R ve WEKA nın aksine kullanıcı, çok fazla programlama bilgisine sahip olmasa da veri madenciliği yapabilir. Bu nedenle son yıllarda giderek artan bir kullanım oranına sahiptir. ORANGE yazılımının bir diğer avantajı ise, mikrodizilim verilerin analizinde kullanılan heat map ve GO- Gene Ontology analiz araçlarını içermesidir. Yazılıma ve ayrıntılı bilgiye bu linkten ulaşılabilir: ailab.si/orange VER MADENC L YÖNTEMLER ile M KROD Z L M VER ANAL Z Veri madenciliği yöntemleri ile mikrodizilim veri analizi beş temel adımdan oluşur. Bunlar sırasıyla Şekil 2 de belirtilmiştir. Kısa not: Çalışmaya katılan bireylere ait sınıflama değerinin bilinmesi durumuna danışmanlı öğrenme (supervised learning) denir. Örneğin; hasta/hasta değil bilgisi biliniyorsa algoritma sınıflamayı sağlayacak modeli daha gerçekçi ve yansız şekilde kestirebilir. Bu bilgi yoksa aynen kümeleme analizlerinde olduğu gibi uzaklık ölçülerini kullanarak tamamen matematiksel tahminler yapılıyorsa bu yaklaşıma danışmansız öğrenme (unsupervised kearning) denir. 1. BOYUT ND RGEME Doğası gereği çok boyutlu olan bu veri türlerinin analizinde atılması gereken ilk adım doğrusal olan ya da olmayan ilişkileri ortaya çıkarmak için verinin boyutunu indirgemektir. Bu yaklaşımı şu şekilde açıklayabiliriz. Örneğin; elimizde 20 hastaya ait 6000 genin ekspresyon değeri varsa, bu veriyi doğrudan analiz etmek yanlıştır. Çünkü genler arasında bilinen ya da bilinmeyen birçok ilişki mevcuttur. Eğer bu ilişkiler giderilmeden kümeleme, sınıflama gibi analizler yapılırsa, sonuçlar yanlı ve yanlış olacaktır. Bu nedenle, örneğimizdeki 6000 gene ait bilgiyi içeren daha az sayıdaki, genelde gen sayısının karekökü kadar, faktör e indirgemek gerekmektedir. Elde edilen her faktör, belirli bir grup gene ait bilgiyi temsil eder. Boyut indirgeme üzerine yapılan birçok çalışma sonunda, çok bilinen Temel Bileşenler Analizi (Principal Component Analizi) yerine veri madenciliği yöntem- 182 H ACETTEPE T IP D ERG S

4 Veri madencili i yöntemleriyle mikrodizilim gen ifade analizi lerinden Bağımsız Bileşenler Analizi (Independent Component Analizi) nin daha iyi bir faktörizasyon sağladığı gözlemlenmiştir [5,23,24]. Bağımsız bileşenler analizi Cilt 42 Say Boyut indirgeme 2. Genelleştirme yöntemlerinin seçimi 3. Danışmanlı ya da danışmansız öğrenme ile veri analizi 4. Performans kriterlerine göre karşılaştırma 5. Gen ontoloji analizi Şekil 2. Mikrodizilim gen ifade veri analizi akış şeması. Bağımsız bileşenler analizi, rastgele değişken, ölçüm ya da sinyalleri göz önüne alarak, veri setlerindeki gizli faktörleri ortaya çıkarmayı hedefleyen istatistiksel bir tekniktir. Genel olarak büyük veri setlerinde, birden çok değişken yardımıyla model oluşturmaya odaklanır. Modelde, değişkenler biraraya gelerek gizli faktörleri ortaya çıkarır. Gizli faktörler için en önemli varsayım, normal dağılım göstermemesi ve birbirlerinden tamamen bağımsız olmalarıdır. Bağımsız bileşenler analizinin, temel bileşenler analizi ve faktör analizi ile ortak yönleri bulunmaktadır. Ancak özellikle veri setinin büyümesiyle bağımsız bileşenler analizi, gizli faktörleri ortaya çıkarmada daha etkili sonuçlar vermektedir. Bağımsız bileşenler analizi sayesinde çok boyutlu verilerde, boyut indirgemesi yapılarak, daha etkili analizler yapılmaktadır. Çoğu zaman tek başına kullanılsa da, sınıflama ve kümeleme yöntemleriyle birlikte kullanımı giderek tercih edilmeye başlanmıştır. Özellikle mikrodizilim veri setlerin boyut indirgeme aşamasında alternatif yöntemlere göre (temel bileşenler analizi, faktör analizi) daha güvenilir sonuçlar vermektedir. Boyut indirgeme ile birlikte, yanlılığı ortadan kaldırmada (Whitening) ve öz değer dekompozisyonla verileri merkezileştirmede kullanılmaktadır. Bağımsız bileşenler analizini açıklarken verilebilecek en iyi örnek Kokteyl Parti Problemi dir. Bir kokteylde birçok ses vardır (müzik, dışarıdan gelen ses, insanların sesleri). Eğer iki kişinin sesi diğer seslerden ayırt edilmek istenirse, en az iki mikrofon, kişilere eşit mesafeye yerleştirilir. Daha sonra her bir mikrofondan gelen sesler birer model olarak analiz edilir. Her modelde iki değişken olmak üzere, faktörler ortaya çıkarılır. Bu örneği gen ekspresyon verileri için de genelleyebiliriz. Her gen, ayrı bir bilgi taşır. Bu genleri ayırt etmede kullanılacak istatistiksel bir model oluşturmak için bağımsız bileşenler analizi çok hızlı ve doğru sonuçlar veren bir yöntemdir. 2. GENELLEfiT RME YÖNTEMLER N N SEÇ M Gen ekspresyon analizinin en temel adımlarından biri analizlerin genelleştirilmesidir. Genelleştirme ile anlatılmak istenen: Veri madenciliği yöntemleri ayırım olmaksızın model tabanlı dır. Eğer sınıflama yapılacaksa önce bir sınıflama modeli oluşturulur sonra bu modele göre yeni gelen hastaya ait ekspresyon düzeyi tahmin edilmeye ya da hasta belirli bir gruba atanmaya çalışılır. Eğer veri setindeki hastaların tamamına ait veriler bir kerede analiz edilirse, sonuçların şansa bağlı olma olasılığı yüksek olur. Başka bir deyişle algoritma veri setine göre model oluşturduğu için, hasta grubunu tanır ve sadece o hasta grubunda işe yarayan bir model oluşturur. Bu hasta grubuna uymayan ancak aynı popülasyondan gelen hastalarda yanlış sonuçlar verir. Bu nedenle hastaların bir kısmı dışarıda bırakılıp analiz modelleri oluşturulmalı, daha sonra dışarıda kalan kısım ile elde edilen modeller test edilmelidir. Bunu yapabilmek için kullanılan en popüler iki yöntem şunlardır: Bootstrap Bootstrap yöntemi standart sapma, güven aralığı gibi istatistiklerde ve parametrik olmayan tahmin problemlerinde kullanılan basit ve güvenilir bir yöntemdir. Bu yöntem belirli bir veri seti içinden, yerine koyarak tekrar tekrar örneklem çekme temeline dayanır. Herhangi büyüklükteki bir veri setinde gözlemlerin şansa bağlı olarak yer değiştirilerek yeniden örneklenmesiyle çeşitli miktarda ve büyüklükte veri setleri oluşturulabilmektedir. Böylece mevcut veri setinden mümkün olabildiğince fazla miktarda bilgi alınabilmektedir. Söz konusu yöntem Bootstrap (resampling) yöntemi olarak tanımlanmaktadır. Bootstrap yöntemi uygulanma kolaylığı ve yararlılığının yanı sıra başka avantajlara da sahiptir. Klasik istatistikte, incelenen değişkenlerin normal dağılım gösterdiği varsayımına dayalı olarak tahmin yapılmaktadır. Bootstrap yönteminde ise veri setinden şansa bağlı örnekler alınarak istatistiksel tahminler yapılmaktadır. Bu yöntemle, 183

5 Coflgun ve Karaa ao lu çok küçük veri setlerinden bile doğru yanıtlar alınabilmekte, büyük veri setlerinde ise klasik istatistik sonuçlarla paralellik sağlanmakta ve hemen hemen tüm istatistikler analiz edilebilmektedir. Çapraz geçerlilik Gen ekspresyon veri setlerinde olduğu gibi olgu sayısının az olduğu deney düzenlerinde kullanışlı bir genelleştirme aracıdır. Mikrodizilim verileri üzerinde yapılan danışmanlı öğrenme analizlerinde sıklıkla kullanılmaktadır [25,26]. Genel olarak 10-parça çapraz geçerlilik yöntemi tercih edilmektedir. Bu yöntemde veri kümesi rastgele 10 eşit parçaya ayrılır. İlk aşamada birinci parça test veri seti olarak bırakılır, geriye kalan dokuz parça eğitim seti olarak kullanılır. İkinci aşamada ise ikinci parça test veri seti olarak kullanılır, geriye kalan dokuz parça ile model bulunmaya çalışılır. Bu süreç 10 parça ayrı ayrı test seti olarak kullanılıncaya kadar devam eder. Çapraz geçerlilik sonunda her parçadan elde edilen doğru sınıflama ya da ROC eğrisi altında kalan alan gibi performans değerlerinin ortalaması alınır. Bu sonuç, ilgili yöntemin genel performansını ifade eder. 3. DANIfiMANLI ve DANIfiMANSIZ Ö RENME YÖNTEMLER Danışmanlı öğrenme yöntemleri Random forest: Son yıllarda gen ekspresyon verilerinin analizinde en çok kullanılan yöntemlerden birisi de random foresttir. En önemli avantajı çok gerekli olmasına rağmen, eğer araştırmacı boyut indirgeme analizini yapmazsa random forest algoritması çok sayıdaki gene ait ekspresyon verisini kullanarak iyi bir sınıflama ve tahmin algoritması oluşturabilir [16-18,27-30]. Gen ekspresyon verilerinde tek bir karar ağacı algoritmasından çok daha başarılı sonuçlar verdiği ispatlanmıştır [28]. Random forest birçok (binlerce) karar ağacından meydana gelen bir yapıdır. Bu analiz sırasında random forestteki her bir ağaç için bootstrap yöntemiyle veri setinden örneklem seçilir ve seçilen verilerin 2/3 ü ağaç oluşturmak için kullanılır ve bir sınıflama yapar (Şekil 3). Bu sınıflamalar oy (vote) alır. Random forest algoritması ise forest içindeki tüm ağaçlardan en çok oy alanı seçer ve onun sınıflamasını kullanır. Düşük hata oranına sahip ağaç daha iyi sınıflayıcıdır. Random forestte hata oranı iki şeye bağlıdır: i) İki ağaç arasındaki korelasyona, korelasyon arttıkça hata oranı artar. ii) Her ağacın kendi hata oranı. Random forestin bazı avantajları ise şu şekildedir: 1. Random forestte aşırı uyum olmaz. 2. İstediğiniz kadar ağaç türetebilirsiniz. 3. Hızlı bir algoritmadır. 4. Elde edilen random forest diğer veri setlerinde kullanılmak üzere saklanabilir. 5. Eksik veri analizlerinde çok etkili bir yöntemdir, doğru sınıflama oranı eksik veriler olsa da devam eder. 6. Binlerce gen herhangi bir eleme yapmadan kullanabilir. 7. Danışmansız (Unsupervised) kümeleme yönteminde kullanılabilir. Destek vektör makinesi: Gen ekspresyon verilerinin en büyük sorunu doğrusal olmayan ilişkiye sahip verileri içermesidir [31-33]. Genler arasındaki bağlantıları belirlemek bu nedenle çok zordur. Bu durum göz önüne alınmadan yapılacak analizler yanlı olabilmektedir. Destek vektör makinesi yöntemi bu sorunu en iyi çözen yöntemlerdendir. Kullandığı çekirdek fonksiyonlar sayesinde Tüm veri Eğitim veri seti Test veri seti In Bag (eğitim setinin 2/3 ü) Out of Bag (eğitim setinin 1/3 ü) Şekil 3. Random forest algoritması akış şeması. 184 H ACETTEPE T IP D ERG S

6 Veri madencili i yöntemleriyle mikrodizilim gen ifade analizi genler arasındaki ilişkileri anlaşılabilir hale getirir. Bunu şu şekilde yapar: Doğrusal olarak sınıflanabilen verileri birbirinden ayırt edebilmek için olası pek çok doğrusal fonksiyon içerisinden marjini en büyük olanı belirler. Herhangi bir şekilde doğrusal olarak sınıflanamayan verileri daha yüksek boyutlu uzaya aktarır ve marjini en büyük olan hiper-düzlemleri bulur. Veriler bu ayırt edici hiper-düzleme göre sınıflara atanır (Şekil 4). Buna ek olarak, veri setine yeni giren verilerin hangi sınıfta olduğu da kestirilebilir. Verileri çok boyutlu uzayda kategorilere ayırmak için farklı çekirdek fonksiyonlar kullanılabilir. En sık kullanılan çekirdek fonksiyonları: Doğrusal, çokterimli, radyal temel fonksiyonu (RTF) ve sigmoiddir [34,35]. Karar ağacı yöntemleri: Sınıflama ve regresyon ağaçları yöntemi (classification and regression tree: CART): CART sayısal veya kategorik değişkenleri, yine bir grup sayısal veya kategorik faktör etkisinden tahmin etmeye yarayan bir algoritmadır. Gen ekspresyonu verileriyle doz tahmini yapılmak istendiğinde kullanılabilecek yöntemlerdendir. Ağaç yapısında olup bir olayın sonuçlandırılmasında sorunun yanıtına göre hareket eder. Kullandığı bilgi ölçütü gini indeksi dir. Girdi değişkenler ağacın bölünme aşamasında sadece 2 ye bölünebilir. Bu nedenle fazla sayıda kategori içeren girdi değişken varlığında dezavantaja sahiptir. n gini indeksi (D) = 1 - j=1 C4.5 algoritması: ID.3 karar ağacı algoritmasının devamı olan bu yöntemde bölünme kriteri gain ratio dur. Özellikle çok fazla girdi değişkene sahip veri tabanlarında ID.3 yönteminin bölünme kriteri olan information gain in yanlı bölünmeler yapma olasılığı yükseldiğinden, bu yöntem son derece kullanışlıdır. Şekil 4. Destek vektör makinesi algoritması problem çözümü. Cilt 42 Say Ρ 2 j alt düzlem Gain ratio = SplitInfo A (D) = - v D j D CHAID (CHi-squared automatic interaction detector): Sürekli sayısal veya kategorik değişken tipleriyle kullanılabilen bir karar ağacı algoritmasıdır. CHAID, ağacın bölünme aşamasında ki-kare istatistiğini kullanır. CHA- ID algoritması tüm girdi ve çıktı değişkenler için çapraz tablolar hazırlar ve en anlamlı olandan (en küçük p değeri) en az anlamlı olana doğru ağaç bölünmeye başlar. Amaç, ağacın yapraklarının, sadece ikili değil, daha fazla sayıda bölünebilmesini sağlamaktır. Bu açıdan diğer karar ağaçlarından ayrılmaktadır. Boosted ağaç (tree) yöntemi (BT): Boosting tree algoritması, boosting yönteminin regresyon ağaçlarına uygulanması sonucu ortaya çıkmıştır. Bu nedenle iki algoritma kullanır: Boosting ve CART. Danışmanlı (supervised) yöntemlerdendir. BRT yöntemi binlerce ağaç üretir. Ancak diğer ağaç tabanlı yöntemlerden farkı, ürettiği her yeni ağacı, bir önceki ağacın artıklarını fit ederek yapar. Elde edilen sonuç modeli regresyon denklemi gibidir. Denklemdeki her bir değişken genlerden oluşur. Böylece yansız ve kesin tahminler yapabilen son sınıflama/regresyon modeli oluşturulmuş olur. Bu yaklaşıma stagewise adı verilmiştir (Şekil 5). Kanser araştırmalarında yapılan modelleme hatasını en aza indirgediği için yüksek doğrulukta sonuçlar verdiği bilinmektedir [15]. Danışmansız öğrenme (kümeleme) yöntemleri Bu kısımda sadece veri madenciliği kapsamındaki Kohonen Map kümeleme yöntemine odaklanılmıştır. Bu yöntemin daha çok bilinen ve bazı genetik araştırmalarda halen kullanılan K-ortalama yöntemine göre avantajı ise: K-Ortalama yöntemindeki en az küme sayısı 2, en fazla küme sayısı ise gözlem sayısına eşit ya da daha az olacak şekilde belirleme zorunluluğunun olmamasıdır [36]. K-Ortalama yönteminin bu varsayımı özellikle genetik araştırmalarda az hasta çok gen senaryosu ile çok sık karşılaşıldığından zorlayıcıdır. Bununla birlikte K-Ortalama yönteminin çok sayıda aykırı gözlemin bulunduğu gen ekspresyon verilerinde başarılı olamadığı önceki çalışmalarda rapor edilmiştir [37]. Kohonen map kümeleme yöntemi: Kohonen Map, Self Organizing Map, olarak da bilinen, kümeleme amaçlı kullanılan, yapay sinir ağı çeşididir. Bu network algoritması, analizden önce hangi grupta olduğu bilinmeyen verileri, birbirinden bağımsız kümelere ayırmakta kullanılır. Kümelerin varyansları kendi içinde küçük, birbirleri arasında ise büyüktür. Analizde temel nokta nöron lardır. Bu nöronlar iki tabakadan oluşur: Girdi ve çıktı nöronlar (Şekil 6). Tüm girdi nöronlar, çıktı nöronlar ile bağlıdır. Bu bağlar, Güç veya Ağırlık ola- j=1 D j x log 2 ( ) D 185

7 Coflgun ve Karaa ao lu BRT Toplumsal Model (STAGEWISE) 1. Ağaç 2. Ağaç 1. Ağacın artıklarını fit etmeye çalışıyor 2. Ağacın artıklarını fit etmeye çalışıyor 3. Ağaç Reg. Model: sabit+a* 1. Ağaç + b* 2. Ağaç t* M. Ağaç Şekil 5. Boosted tree algoritması. Şekil 6. Kohonen map algoritması akış şeması. Çıktı tabakası Girdi tabakası rak adlandırılan ölçülerle ifade edilir. Algoritma çalıştığında çıktı nöronlar, en çok veriyi kendilerine bağlamak için yarışır. Çıktı haritası, nöronların iki boyutlu, birbirleriyle ilişkisiz grid yapısında görünüme sahip bir haritasıdır. Herhangi bir hedef değişkene ihtiyaç duymamasından dolayı, danışmansız öğrenme tekniklerindendir [4,7,27,38]. Algoritma, öncelikle tüm girdi nöronlar için, çıktı nöronlara rastgele olarak ağırlıklar atar. En güçlü ağırlığa göre verileri çıktı nöronlara atar. Analiz sonunda, benzer veriler grid üzerinde aynı yerde, farklı olanlar ise, uzak gridlere ayrılır. 4. PERFORMANS KARfiILAfiTIRMA KR TERLER Veri madenciliğinde gen ekspresyon verileriyle bireylerin sınıflanması sık görülen uygulamalardandır. Ancak veri madenciliğinde her veri setinde en iyi sınıflama sonucunu verecek bir yöntem yoktur. Çalışılan popülasyon, yaş grubu ya da hastalık, analiz edilen veri setindeki gen sayısı, hasta sayısı, genler için sinyal ortalama ve varyansı, genler arasındaki korelasyon göz önüne alındığında farklı yöntemler daha güvenilir ve yüksek doğrulukta sonuçlar verebilir. Bu nedenle olası tüm yöntemler ya da yöntemler bütünü denenmeli ve en iyi sonucu veren yaklaşım tercih edilmelidir. Peki bu yöntemleri birbirinden nasıl ayırt edebiliriz? İkiden çok hasta grubunun olduğu çalışmalarda (çok sınıflı-sınıflama çalışmaları) doğruluk (accuracy, doğru sınıflanan bireylerin sayısının tüm bireylerin sayısına oranı) ölçüsünün kullanılması önerilir. Çalışma türü ve grubuna göre değişmekle birlikte %75 lik doğruluk kabul edilebilir bir orandır. Olgu-kontrol çalışmalarında (iki sınıflı-sınıflama çalışmaları) gen ekspresyon verisiyle tanı tahmini yapılması planlanıyorsa doğruluk değeri gibi standart bir kriterin dışında veri madenciliğine özel kullanılan alternatif performans karşılaştırma kriterleri mevcuttur. Bunlar: ROC eğrisi altında kalan (AUC: Area Under ROC Curve) ROC eğrisi bir tanı testine ilişkin duyarlılık ve özgüllük değerleri arasındaki ilişkiyi grafiksel olarak gösterir. ROC eğrisi yanlış pozitif orana (duyarlılık) karşın doğru pozitif oranların (1-seçicilik) noktalanarak çizilmesiyle elde edilir [39]. Bu eğrinin altında kalan alanın hesaplanmasıyla AUC elde edilir. AUC, veri madenciliği literatüründe çok sık kullanılan sıralamaya dayalı (ranking) bir performans kriteridir [33,39-42] (Şekil 7). AUC, veri madenciliği sınıflayıcı modelinin hasta ve sağlıklı kişilerden rastgele seçilmiş iki kişiyi doğru tanımlayabilme olasılığı olarak ifade edilebilir [33]. 0 ile 1 arasında değerler alabilir; 0.5 değeri rastgele bir tahmin olduğunu, 1 e yakın değerler modelin tahmin gücünün yüksek olduğunu gösterir. 186 H ACETTEPE T IP D ERG S

8 Veri madencili i yöntemleriyle mikrodizilim gen ifade analizi Doğru pozitif oran Yanlış pozitif oran Şekil 7. Örnek ROC eğrisi. Diğer kriterlerin aksine, göreli sınıf dağılımdan etkilenmez. Bu nedenle mikrodizilim gen ifade çalışmalarında kullanımı yaygındır [33,39,43]. AUC şu şekilde ifade edilebilir: AUC = P[Y D > Y_ D ] Y D : Hastaların dağılımı Y _ D : Sağlıklıların dağılımı Matthews korelasyon katsayısı Veri madenciliğinde iki sınıflı sınıflama problemlerinde model kalitesini belirten bir ölçüdür. En önemli özelliği sınıflardaki kişi sayıları dengesiz olduğunda diğer kriterlere göre daha doğru sonuç vermesidir. [-1 ile 1] arasında değerler alır. 1 en iyi tahmini, 0 şansa bağlı bir tahmin yapıldığını, -1 ise ters tahmin yapıldığını belirtir. Ki-kare istatistiği ile ilişkilidir. n çalışmadaki kişi sayısını belirtirken: MKK = Ayrıca, 2 x 2 tahmin tablosundan da şu şekilde elde edilebilir: MKK = X 2 n (DP x DN) - (YP x YN) (DP + YP) (DP + YN) (DN + YP) (DN + YN) Tablo 2. Gerçek tanı değerine karşılık gelen tahmin edilen tanıyı gösteren tablo VM ile tahmin Gerçek tanı edilen tanı Hasta Sağlıklı Toplam Hasta DP YP P Sağlıklı YN DN N Toplam P N VM: Veri madenciliği, DP: Doğru pozitif, YP: Yanlış pozitif, YN: Yanlış negatif, DN: Doğru negatif, N: Negatif, P: Pozitif. Brier skor: İki durumlu sınıflama problemlerinde (hasta-sağlıklı) veri madenciliği yöntemleriyle yapılan sınıf tahmin olasılıklarının doğruluğunu test etmek için kullanılan bir ölçüdür. [0-1] arasında değişen değerler alır. 0 a ne kadar yakınsa yapılan sınıf tahminleri o kadar güvenilirdir. Her bir hasta için tahmin edilen sınıf olasılığı ve gerçek sınıf değerleri arasındaki farkının kareler ortalaması ile hesaplanır [32]: 1 n BS = n t =1(f τ o τ ) 2 o t = t.hastanın gerçek tanısı f t = t.hastanın veri madenciliği modelleri ile tahmin edilen tanı olasılığı n= hasta sayısı Yukarıda açıklananlar dışında genel olarak bilinen diğer performans ölçüleri (Tablo 2): Doğruluk (accuracy) = (DP + DN)/(P + N) Recall (sensitivity) = DP/(DP + YN) Precision (pozitif tahmin değeri) = DP/(DP + YP) F-ölçüsü: (Precision x Recall)/(Precision + Recall) 5. GEN ONTOLOJ S Ekspresyon verilerinin analizinde yöntemlerin doğru seçimi ve uygulanma sırası kadar elde edilen bulguların biyolojik anlamının araştırılması da önemlidir. Veri madenciliği yazılımlarının birçoğu bu konuda da araştırıcılara yardımcı olmaktadır. Özellikle ORANGE programı bu konuda bir adım öndedir. Canvas olarak adlandırılan çalışma alanında birçok veri tabanına bağlanma ve sorgu yapma imkanı sunan ikonlara sahiptir (Şekil 8). Kullanıcı çok az tecrübeye sahip olsa bile rahatlıkla analizlerinde önemli bulduğu genlerin biyolojik anlamlarına ulaşabilir. ORANGE dışında, [R] yazılımı da farklı birçok paket ile gen ontolojisi konusunda kullanışlıdır. Bu paketlerden en önemlileri topgo, GOSim dir. Yazılımların içerdiği paketler dışında gen ontolojisi sürekli olarak güncellenen birçok gen ontoloji internet sitesi/projesi mevcuttur. Bunlardan bazıları: The Kyoto Gen ve Genom Ansiklopedisi (KEGG), Gene Map Annotator and Pathway Profiler (GenMAPP), BioCarta, Adenylate-Rich Element Database (ARED) dir. Cilt 42 Say

9 Coflgun ve Karaa ao lu Şekil 8. ORANGE programında gen ontoloji seçenekleri. SONUÇ ve ÖNER LER Hastalıkların tedavisi, yeni ilaç keşifleri ve hastalıkları önlemeye yönelik çalışmalarda genetik verilerin önemi giderek artmaktadır. Ülkemizde de biyobanka ların yaygınlaşması ve genetik araştırmalara ayrılan kaynakların artmasıyla bu alanda ciddi ilerlemeler kaydedilmiştir. Yeni genlerin ve tedavilerin bulunması bunlardan sadece birkaçıdır. Araştırıcılarımızın başarılı çalışmalarının sonuca ulaşması ve hastalara doğrudan etki edebilmesi için genetik araştırmalardan karmaşık bilgi birikimini çıkarmak gerekmektedir. Bu nedenle ülkemizde de biyoistatistik ve biyoinformatik uzmanlarına duyulan gereksinim artmaktadır. Hem biyolojik bilgiye hakim hem de hangi analiz yöntemini ne zaman kullanacağını bilen uzmanlarla çok daha geçerli tedavi yöntemlerinin bulunacağı açıktır. Analizi yapacak araştırmacı bu çalışmada sunulan adımları sırasıyla ve doğru şekilde uygularsa veriden mümkün olan en fazla bilgiyi çıkaracaktır. Tüm bunlarla birlikte elde edilecek veri madenciliği modelleri sayesinde kişiye özel tedavinin de yolu açılacaktır. Bu sonuç bile uzun vadede veri madenciliğine kadar gerek duyulduğunu göstermektedir. Ayrıca, günümüzde araştırmalara harcanan paranın büyük kısmı yazılım alımına ayrılmaktadır. Ancak alınan yazılımların çoğu kullanıcıları kısıtlamakta ve kendi deney planlarını yapmasına engel olmaktadır. Hatta birçoğu bu çalışmada da açıklanan yeni nesil veri madenciliği yöntemlerini içermemektedir. Bu çalışmanın genetik araştırmalarda çalışan uzmanlara analizlerinde daha özgür davranabilmelerini sağlayacak açık kaynak kodlu-ücretsiz programları tanıtmak adına da önemli olduğunu düşünmekteyiz. Bu mantıktan hareketle Gene3E adlı [R] yazılımının kodlarını kullanan java analiz aracını da geliştirmiş ve araştırıcıların kullanımına sunmuş bulunmaktayız [44]. Çalışmamızda genetik veri türlerinden Mikrodizilim Gen İfade verilerinin analizinde takip edilmesi gereken yol açıklanmıştır. Bu veri türü dışında SNP, Exon Array ve Next Generation Dizi veri türleri için de farklı birçok yazılım ve veri madenciliği yöntemi bulunmaktadır. Özellikle günümüzde maliyet olarak daha makul seviyelere gelen Genome Wide Association Study (GWAS) çalışmaları da veri madenciliği için önemli bir çalışma alanıdır. Bundan sonraki çalışmamızda bu verilerin türlerini de kapsayacak ayrıntılı analiz akış şemalarının çıkarılması planlanmaktadır. 188 Kaynaklar 1. Cosgun E, Limdi N, Duarte CW. High dimensional pharmacogenetic prediction of a continuous trait using machine learning techniques with application to warfarin dose prediction in African American. Bioinformatics 2011; 27:10: Cosgun E, Karaagaoğlu E. The new hybrid method for classification of patients by gene expression profiling. In: Suh Sang C, Gurupur Vadadraj P, Tanik Murat M (eds). Biomedical Engineering: Healthcare Systems, Technology and Techniques, Springer. 1 st ed. 2011: Parrish RS, Spencer HJ, Xu P. Distribution modelling and simulation of gene expression data. Computational Statistics and Data Analysis, Tamayo P, Slonim D, Mesirov J, Zhu Q, et al. Interpreting patterns of gene expression with self-organizing maps: methods and application to hematopoietic differentiation. Proc Natl Acad Sci 1999; 96: Lee SI, Batzoglou S. An Application of Independent Component Analysis to Microarrays, Genome Biology, 2003; 4:R Han J. How Can Data Mining Help Bio-Data Analysis? Workshop on Data Mining in Bioinformatics Zhang K, Zhao H. Assessing reliability of gene clusters from gene expression data. Functional Integrated Genomics 2000: Dettling M, Buhlmann P. Boosting for tumor classification with gene expression data. Bioinformatics 2003; 3: Wang LY, Tu Z., Lung tumor diagnosis and subtype discovery by gene expression profiling, Conf Proc IEEE Eng Med Biol Soc 2006; 1: Coşgun E, Karabulut E, Karaağaoğlu E. Random Forest (RF) ve SVM ile Mikrodizilim Verilerde Gen Seçimi, VI. Ulusal İstatistik Kongresi, 29 Nisan-3 Mayıs 2009, Antalya, Türkiye. 11. Yeung KY, Medvedovic M, Bumgarner RE. Clustering Gene Expression Data With Repeated Measurements, Genome Biology 2003; 4:R Park HS, Jun CH, Yoo JY. Classifying genes according to predefined patterns by controlling false discovery rate. Expert Systems with Applications 2009; 36: Ruffino E, Muselli M, Valentini G. Biological specifications for a synthetic gene expression data generation model, lecture notes in computer. Science 2006; 3849: Chin YL, Deris S. A study on gene selection and classification algorithms for classification of microarray gene expression data. Jurnal Teknologi 2005; 43: Li L, Weinberg CR, Darden TA, Pedersen LG. Gene selection for sample classification based on gene expression data: study of sensitivity to choice of parameters of the GA/KNN method. Bioinformatics 2001; 17: Dudoit S, Fridlyand J, Speed TP. Comparison of discrimination methodsfor the classification of tumors using gene expression data Technical Report 576, Department of Statistics, University of California, Berkeley. H ACETTEPE T IP D ERG S

10 Veri madencili i yöntemleriyle mikrodizilim gen ifade analizi 17. Ben-Dor A, Bruhn L, Friedman N, Nachman I, Schummer M, Yakhini N. Tissue classification with gene expression profiles. Journal of Computational Biology 2000; 7: Jagota A. Microarray Data Analysis and Visualization, Bioinformatics by the Bay Press, Santa Cruz, DNA Mikroarray/DNA Mikrodizilimi: Hematolojide Kullanım Alanlar, Tayfun ÖZÇELIK, XXX. Ulusal Hematoloji Kongresi, Mezuniyet Sonrası Eğitim Kursu Dokümanı. Erişim adresi: Erişim tarihi: Doç. Dr. Hatice Mergen kişisel internet sayfası. Erişim tarihi: 10 Eylül Erişim adresi: hacettepe.edu.tr/~mergen/derleme/d_microarray.pdf 21. Frank E, Hall MA, Holmes G, Kirkby R, Pfahringer B. Witten, TriggL. Weka-a machine learning workbench for data mining. In: Maimon O, Rokach L (eds). The Data Mining and Knowledge Discovery Handbook, Springer 2005: Demsar J, Leban G, Zupan B, FreeViz. An Intelligent Visualization Approach for Class-Labeled Multidimensional Data Sets, Intelligent Data Analysis in Medicine and Pharmacology Workshop-2005-Scotland, UK. 23. Hyvärinen A, Oja E. Independent component analysis: algorithms and application. Neural Networks 2000; 13: International Journal of Innovative Computing, Information and Control ICIC International, Independent Component Analysis for Classification of Remotely Sensed Images, 2006; 2: Ulisses M. Braga-Neto1,3 and Edward R. Dougherty, Is cross-validation valid for small-sample microarray classification? Bioinformatics 2004; 20: doi: / bioinformatics/btg Boulesteix AL, Strimmer K. Predicting transcription factor activities from combined analysis of microarray and ChIP data: a partial least squares approach, heoretical. Biology and Medical Modelling 2005; 2: Jin X, Bie R. Random Forest and PCA for Self-Organizing Maps Based Automatic Music Genre Discrimination, Conference on Data Mining, 2006: Leo B. Random forests. Machine Learning 2001; 45: Shi T, Horvath S. Unsupervised learning with random forest predictors. Journal of Computational and Graphical Statistics 2006; 15: Amaratunga D, Cabrera J, Lee YS. Enriched random forests. Bioinformatic 2008; 24: Huerta M, Cedano J, Querol E. Analysis of nonlinear relations between expression profiles by the principal curves of oriented-points approach. J Bioinform Comput Biol 2008; 6: Brier GW. Verification of forecasts expressed in terms of probability. Monthly weather review 1950; 78: Airola A. A comparison of AUC estimators in small-sample studies. Machine Learning in Systems Biology 2010; 8: Vapnik V. Estimation of Dependences Based on Empirical Data [in Russian]. Nauka, Moscow, (English translation: Springer, New York, 1982). 35. Karabulut E, Karaağaoglu E. Biyoinformatik ve biyoistatistik. Hacettepe Tıp Dergisi 2010; 41: Alpar CR. Uygulamalı Çok Değişkenli İstatistiksel Yöntemlere Giriş, Nobel Yayın Evi, Ocak 2003; ISBN: Bação F, Lobo V, Painho M. Self-organizing maps as substitutes for K-Means Clusteringö Lecture Notes in Computer Science, 2005; 3516/2005, 9-28, DOI: / _ Wehrens R, Buydens LMC. Self and super-organizing maps in R: the kohonen package. J Stat Soft 2007; 21: Bradley AP. The use of the area under the ROC curve in the evaluation of machine learning algorithms. Pattern Recognition 1997; 30:1145: Vanderlooy S, Hullermeier E. A critical analysis of variants of the AUC. Machine Learning 2008; 72:247: Waegeman W, De Baets B, Boullart L. ROC analysis in ordinal regression learning. Pattern Recognition Letters 2008; 29:1: Baker S, Kramer B. Identifying genes that contribute most to good classification in microarrays. BMC Bioinformatics 2006; 7: Gevaert O, Smet FD, Timmerman D, Moreau Y, Moor BD. Predicting the prognosis of breast cancer by integrating clinical and microarray data with bayesian networks. Bioinformatics 2006; 22: Cosgun E, Aksarı Y. GENE 3E: a new bioinformatics tool for genetic data mining, Society for Design and Process Conference, June , Jeju, South Korea. Cilt 42 Say