Veri madencili i yöntemleriyle mikrodizilim gen ifade analizi

Ebat: px
Şu sayfadan göstermeyi başlat:

Download "Veri madencili i yöntemleriyle mikrodizilim gen ifade analizi"

Transkript

1 DERLEME REVIEW Hacettepe T p Dergisi 2011; 42: Veri madencili i yöntemleriyle mikrodizilim gen ifade analizi Erdal Coflgun 1, Ergun Karaa ao lu 2 1 Araştırma Görevlisi Dr., Hacettepe Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı, Ankara 2 Prof. Dr., Hacettepe Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı, Ankara ÖZET İnsan genom projesi ile elde edilen bilgi birikimine paralel olarak mikrodizilim teknolojisi de gelişmiştir. Bu teknoloji ile özellikle genlerin işlevleri ve genomdaki düzenleme mekanizmalarını belirlemede ilerleme sağlanmıştır. Bu noktada veri madenciliği yöntemleri araştırmacıların en büyük yardımcısı haline gelmiştir. Bunun en önemli sebebi mikrodizilim veri setlerinin analizinde klasik istatistiksel yöntemlerin bazı varsayımlarından dolayı (normal dağılım, varyansların homojenliği) kullanılamamasıdır. Veri madenciliği yöntemleri ise hemen hemen hiçbir varsayıma ihtiyaç duymadan analizleri doğru şekilde sonuçlandırır. Bu çalışmadaki amaç gen ekspresyon verilerinin analizindeki temel akış şemasını ortaya koymaktır. Bunlar sırasıyla boyut indirgeme, genelleştirme yönteminin seçimi, danışmanlı-danışmansız öğrenme yöntemleri, performans kriterleri ve gen ontolojisidir. Bu çalışma ile ülkemizde genetik araştırmalar yapan bilim insanlarına veri analizi konusunda yardımcı olabilecek alternatif yöntemler ve araçlar birarada sunulmuştur. Anahtar Kelimeler: Biyoinformatik, veri madenciliği, mikrodizilim gen ekspresyon verisi, sınıflama, kümeleme. ABSTRACT Microarray gene expression data analysis with data mining methods In parallel with the accumulation of information obtained from the human genome project, microarray technology has also developed. With this technology, progress has been made especially in the functions of genes and regulatory mechanisms and determining in the genome. Data mining methods have become the most important suppertive to the researchers at this point. The most important reason of that is the lack of use of the methods of classical statistics due to certain assumptions (normal distribution, homogenity of variances) in analyzing the microarray data sets. Data mining methods on the other hand conclude the analyzes correctly almost requiring no assumption. The aim of this study is to introduce the main flow chart in the analyzing of gene expressing data. These are dimension reduction, selecting the method of generalization, supervisedunsupervised methods, performance criteria and gene ontology, in order. By this study, alternative methods and resources, which will help the scientists who work in genetic researches in our country in the analyzing of data, have been introduced together. Key Words: Bioinformatics, data mining, microarray gene expression data, classification, clustering. 180 H ACETTEPE T IP D ERG S

2 Veri madencili i yöntemleriyle mikrodizilim gen ifade analizi Veri madenciliği (VM, Data Mining) yaklaşımlarının çok boyutlu verilerde kullanımı son yıllarda sıklıkla görülmektedir [1]. Bu tip verilere en güzel örnek genetik araştırmalar sonucu elde edilen verilerdir. Özellikle mikrodizilim (microarray) gen ifade araştırmaları sonucunda binlerce gene ait ifade (ekspresyon) düzeylerini içeren veri matrisleri elde edilir. Ancak verilerin sadece elde edilmesi yeterli olmamaktadır. Bu verileri doğru ve yansız biçimde analiz edebilecek istatistiksel modellere ihtiyaç duyulmaktadır. Veri madenciliği yöntemlerinin yaygın şekilde kullanıldığı klinik çalışmalar mikrodizilim gen ifade çalışmalarıdır [2-9]. İnsan genomunda yaklaşık 40,000 gen bulunduğu göz önüne alındığında bu kadar çok genin tek tek analizi mümkün değildir. Fakat günümüzde, geliştirilen otomasyona dayalı sistemlerle çok fazla sayıdaki genin aynı anda analizi mümkün hale gelmiştir. Bu analizlerin önemli bir bölümünü genlerin sınıflanması ve önemli genlerin bulunması oluşturmaktadır. Ülkemizde de bu araştırmalara ayrılan kaynak miktarı giderek artmaktadır. Ancak genetik araştırmalar hem maliyeti hem de ölçümlerin tekrar edilmesindeki zorluklar nedeniyle çok fazla hasta üzerinde yapılamamaktadır. Bu nedenle az sayıdaki hastaya ait binlerce gen verisi üzerinden bazı yorumlara ulaşılmak durumunda kalınmıştır. Klasik istatistiksel yöntemler (lojistik regresyon, varyans analizi, doğrusal regresyon analizi) bu tip verileri açıklamakta sorun yaşamaktadır. Son dönemde bu tip veriler üzerinde destek vektör makineleri (SVM: Support Vector Machine), karar ağaçları, Boosted Tree Random Forest gibi birçok veri madenciliği yöntemi denenmiş ve iyi sonuçlar elde edilmiştir [3-6, 10-13]. HASTALAR Cilt 42 Say GENLER Şekil 1. Temel ekspresyon verisinin yansıma görüntüsü. Genlerin kümelenmesi de birçok araştırmanın temel çıkış noktası olmuştur. Bu yaklaşımdaki temel amaç benzer özellikteki genleri, farklı uzaklık ölçüleri kullanarak biraraya getirmektir. Bu yaklaşım özellikle kanser araştırmalarında önem kazanmaktadır. Çünkü genler arasındaki ilişkiler hakkında az da olsa fikir sahibi olmak, hastalık tedavilerinde çok önemli olarak görülmektedir. Literatürde en sık kullanılan kümeleme yöntemleri K-Ortalama (K-Means) ve Kohonen Map kümeleme yöntemleridir [4,11,13]. Gen ifade analizi verileri yardımıyla önemli genlerin seçimi ve hastaların sınıflanması da başlıca veri madenciliği çalışmalarındandır [14-17]. Buradaki temel amaç, ilgili fenotipi etkileyen bir grup gen setinin bulunmasıdır. Belirlenecek önemli genlerin seçimi tedavi süresini ve başarısını doğrudan etkilemektedir. Özellikle ilaç geliştirmede aday genlerin belirlenmesi standart bir yaklaşım haline gelmiştir. M KROD Z L M VER LER ve ÖZELL KLER Mikrodizilim gen ifade verisi veri madenciliği için, m-bireyleri, n-genleri ifade eden m x n boyutlu bir matristir [18]. DNA mikrodizilimi cam, plastik veya silikon çip gibi katı bir yüzeye tutturularak sıralı bir şekilde (array) oluşturulmuş mikroskobik DNA spotlarıdır. Bir mikrodizilimde bu spotlardan on binlerce bulunabilir. Yüzeye tutturulan bu DNA parçaları (genellikle nükleotid uzunluğunda) prob olarak tanımlanmıştır. Bu teknik özünde bir cam lam veya naylon zar üzerine kısa ve RNA sentezinde kullanan yüzlerce/binlerce DNA hedef dizilimlerinin yerleştirilmesi ve incelenecek cdna nın floresan/radyoaktif işaretlemenin ardından yerleştirilmiş DNA ile biraraya getirilerek işleme alınması bulunmaktadır [19] (Şekil 1). Bu teknikte membran yerine camın kullanılması, radyoaktivitenin yerini floresan işaretlerin alması ve bağlanmayı sağlayacak yöntemlerin hassaslaşmasıyla çalışmaların verimi ve elde edilen bilgilerin miktarı artmıştır [20]. VER ANAL Z ARAÇLARI Gen ekspresyon verisi elde edilip depolandıktan sonra en önemli aşama, biyolojik örüntülerin gözlenen fenotip üzerine etkisini belirlemektir. Genetik verilerin analizi bilinen klasik istatistiksel yöntemlerin (t-testleri, varyans analizleri) ötesinde veri madenciliği yöntemlerini kullanmayı gerektirmektedir. Bunun en önemli nedeni, veri madenciliği yöntemlerinin çok yüksek boyutlu verilerde doğrusal olmayan ilişkileri belirlemede avantaja sahip olmasıdır. Son yıllarda işte bu avantajlı yöntemlerin kullanılabilmesi için birçoğu açık kaynak kodlu program geliştirilmiştir. Bunlardan en önemli üç tanesi şunlardır: 181

3 Coflgun ve Karaa ao lu 1. [R] [R], veri madenciliği çalışan her araştırmacı için standart olan, açık kaynak kodlu ve ücretsiz bir yazılımdır. [R] programının mantığı her analiz için kullanılabilecek analiz paketlerine sahip olmasıdır. Kullanıcılar yapmak istedikleri analize ait paketi indirdikten sonra ilgili paketin kullanım kılavuzuna göre analizlere devam eder. [R] nin en önemli avantajı diğer paket programlara göre çok hızlı olmasıdır. Standart bir bilgisayar konfigürasyonu ile (örn. 2 GB RAM ve 2.13 GHz işlemci) çok büyük veri setleri kısa sürede analiz edilebilir. Bu programa ait tüm bilgiye bağlantısından yöntemlerin paketlerine ait tam listeye ise: org/src/contrib/packa- GES.html bağlantısından ulaşılabilir. Bu çalışma kapsamındaki veri madenciliği yöntemlerine ait [R] paketleri Tablo 1 de verilmiştir. Bu paketlerin dışında ilgili yöntemler için kullanılabilecek başka kaynak paketler de bulunabilir. 2. WEKA Tablo 1. Çalışma kapsamında kullanılması önerilen [R] paketleri Analiz [R] paketi Gen ontolojisi topgo, GOSim Bootstrap boot, bootstrap Random forest randomforest Destek vektör makinesi e1071, Sınıflama ve regresyon ağaçları (CART) rpart C 4.5 RWeka CHAID rpart Boosted tree yöntemi gbm Kohonen map kohonen Bağımsız bileşenler analizi fastica Veri madenciliği çalışmalarında kullanılan bir diğer açık kaynak kodlu ve ücretsiz program WEKA dır [21]. WEKA nın en önemli avantajı Java dilinde yazılmış olmasıdır. Bu nedenle hemen hemen tüm işletim sistemlerinde (Linux, Mac, Sun, Windows) çalışabilmektedir. WEKA çok zengin bir içeriğe sahiptir. Bu çalışma kapsamında da bahsedilen danışmanlı ve danışmansız öğrenme teknikleri, kümeleme, birliktelik kuralları gibi birçok yönteme ait paketlere sahiptir. Çapraz geçerlilik ve bootstrap analizleri için özel komutları içerir. Son dönemde getirdiği yeniliklerden biri de Perl ve R programlama dillerinin komutlarını doğrudan çalıştırabilmesidir. Bu yazılım ile ilgili ayrıntılı bilgiye waikato.ac.nz/ml/weka bağlantısından ulaşılabilir. 3. ORANGE Ücretsiz şekilde ulaşılabilen bir diğer yazılım da ORANGE dir [22]. ORANGE yi diğer yazılımlardan ayıran en önemli nokta görsel bir analiz penceresine sahip olmasıdır. Yöntemler ve araçlar küçük ikonlar halindedir. Kullanıcılar yapmak istedikleri analizlere ait ikonları canvas denilen çalışma alanına taşırlar ve analiz modellerini bu ikonlar arası bağlantı yolları kurarak oluştururlar. R ve WEKA nın aksine kullanıcı, çok fazla programlama bilgisine sahip olmasa da veri madenciliği yapabilir. Bu nedenle son yıllarda giderek artan bir kullanım oranına sahiptir. ORANGE yazılımının bir diğer avantajı ise, mikrodizilim verilerin analizinde kullanılan heat map ve GO- Gene Ontology analiz araçlarını içermesidir. Yazılıma ve ayrıntılı bilgiye bu linkten ulaşılabilir: ailab.si/orange VER MADENC L YÖNTEMLER ile M KROD Z L M VER ANAL Z Veri madenciliği yöntemleri ile mikrodizilim veri analizi beş temel adımdan oluşur. Bunlar sırasıyla Şekil 2 de belirtilmiştir. Kısa not: Çalışmaya katılan bireylere ait sınıflama değerinin bilinmesi durumuna danışmanlı öğrenme (supervised learning) denir. Örneğin; hasta/hasta değil bilgisi biliniyorsa algoritma sınıflamayı sağlayacak modeli daha gerçekçi ve yansız şekilde kestirebilir. Bu bilgi yoksa aynen kümeleme analizlerinde olduğu gibi uzaklık ölçülerini kullanarak tamamen matematiksel tahminler yapılıyorsa bu yaklaşıma danışmansız öğrenme (unsupervised kearning) denir. 1. BOYUT ND RGEME Doğası gereği çok boyutlu olan bu veri türlerinin analizinde atılması gereken ilk adım doğrusal olan ya da olmayan ilişkileri ortaya çıkarmak için verinin boyutunu indirgemektir. Bu yaklaşımı şu şekilde açıklayabiliriz. Örneğin; elimizde 20 hastaya ait 6000 genin ekspresyon değeri varsa, bu veriyi doğrudan analiz etmek yanlıştır. Çünkü genler arasında bilinen ya da bilinmeyen birçok ilişki mevcuttur. Eğer bu ilişkiler giderilmeden kümeleme, sınıflama gibi analizler yapılırsa, sonuçlar yanlı ve yanlış olacaktır. Bu nedenle, örneğimizdeki 6000 gene ait bilgiyi içeren daha az sayıdaki, genelde gen sayısının karekökü kadar, faktör e indirgemek gerekmektedir. Elde edilen her faktör, belirli bir grup gene ait bilgiyi temsil eder. Boyut indirgeme üzerine yapılan birçok çalışma sonunda, çok bilinen Temel Bileşenler Analizi (Principal Component Analizi) yerine veri madenciliği yöntem- 182 H ACETTEPE T IP D ERG S

4 Veri madencili i yöntemleriyle mikrodizilim gen ifade analizi lerinden Bağımsız Bileşenler Analizi (Independent Component Analizi) nin daha iyi bir faktörizasyon sağladığı gözlemlenmiştir [5,23,24]. Bağımsız bileşenler analizi Cilt 42 Say Boyut indirgeme 2. Genelleştirme yöntemlerinin seçimi 3. Danışmanlı ya da danışmansız öğrenme ile veri analizi 4. Performans kriterlerine göre karşılaştırma 5. Gen ontoloji analizi Şekil 2. Mikrodizilim gen ifade veri analizi akış şeması. Bağımsız bileşenler analizi, rastgele değişken, ölçüm ya da sinyalleri göz önüne alarak, veri setlerindeki gizli faktörleri ortaya çıkarmayı hedefleyen istatistiksel bir tekniktir. Genel olarak büyük veri setlerinde, birden çok değişken yardımıyla model oluşturmaya odaklanır. Modelde, değişkenler biraraya gelerek gizli faktörleri ortaya çıkarır. Gizli faktörler için en önemli varsayım, normal dağılım göstermemesi ve birbirlerinden tamamen bağımsız olmalarıdır. Bağımsız bileşenler analizinin, temel bileşenler analizi ve faktör analizi ile ortak yönleri bulunmaktadır. Ancak özellikle veri setinin büyümesiyle bağımsız bileşenler analizi, gizli faktörleri ortaya çıkarmada daha etkili sonuçlar vermektedir. Bağımsız bileşenler analizi sayesinde çok boyutlu verilerde, boyut indirgemesi yapılarak, daha etkili analizler yapılmaktadır. Çoğu zaman tek başına kullanılsa da, sınıflama ve kümeleme yöntemleriyle birlikte kullanımı giderek tercih edilmeye başlanmıştır. Özellikle mikrodizilim veri setlerin boyut indirgeme aşamasında alternatif yöntemlere göre (temel bileşenler analizi, faktör analizi) daha güvenilir sonuçlar vermektedir. Boyut indirgeme ile birlikte, yanlılığı ortadan kaldırmada (Whitening) ve öz değer dekompozisyonla verileri merkezileştirmede kullanılmaktadır. Bağımsız bileşenler analizini açıklarken verilebilecek en iyi örnek Kokteyl Parti Problemi dir. Bir kokteylde birçok ses vardır (müzik, dışarıdan gelen ses, insanların sesleri). Eğer iki kişinin sesi diğer seslerden ayırt edilmek istenirse, en az iki mikrofon, kişilere eşit mesafeye yerleştirilir. Daha sonra her bir mikrofondan gelen sesler birer model olarak analiz edilir. Her modelde iki değişken olmak üzere, faktörler ortaya çıkarılır. Bu örneği gen ekspresyon verileri için de genelleyebiliriz. Her gen, ayrı bir bilgi taşır. Bu genleri ayırt etmede kullanılacak istatistiksel bir model oluşturmak için bağımsız bileşenler analizi çok hızlı ve doğru sonuçlar veren bir yöntemdir. 2. GENELLEfiT RME YÖNTEMLER N N SEÇ M Gen ekspresyon analizinin en temel adımlarından biri analizlerin genelleştirilmesidir. Genelleştirme ile anlatılmak istenen: Veri madenciliği yöntemleri ayırım olmaksızın model tabanlı dır. Eğer sınıflama yapılacaksa önce bir sınıflama modeli oluşturulur sonra bu modele göre yeni gelen hastaya ait ekspresyon düzeyi tahmin edilmeye ya da hasta belirli bir gruba atanmaya çalışılır. Eğer veri setindeki hastaların tamamına ait veriler bir kerede analiz edilirse, sonuçların şansa bağlı olma olasılığı yüksek olur. Başka bir deyişle algoritma veri setine göre model oluşturduğu için, hasta grubunu tanır ve sadece o hasta grubunda işe yarayan bir model oluşturur. Bu hasta grubuna uymayan ancak aynı popülasyondan gelen hastalarda yanlış sonuçlar verir. Bu nedenle hastaların bir kısmı dışarıda bırakılıp analiz modelleri oluşturulmalı, daha sonra dışarıda kalan kısım ile elde edilen modeller test edilmelidir. Bunu yapabilmek için kullanılan en popüler iki yöntem şunlardır: Bootstrap Bootstrap yöntemi standart sapma, güven aralığı gibi istatistiklerde ve parametrik olmayan tahmin problemlerinde kullanılan basit ve güvenilir bir yöntemdir. Bu yöntem belirli bir veri seti içinden, yerine koyarak tekrar tekrar örneklem çekme temeline dayanır. Herhangi büyüklükteki bir veri setinde gözlemlerin şansa bağlı olarak yer değiştirilerek yeniden örneklenmesiyle çeşitli miktarda ve büyüklükte veri setleri oluşturulabilmektedir. Böylece mevcut veri setinden mümkün olabildiğince fazla miktarda bilgi alınabilmektedir. Söz konusu yöntem Bootstrap (resampling) yöntemi olarak tanımlanmaktadır. Bootstrap yöntemi uygulanma kolaylığı ve yararlılığının yanı sıra başka avantajlara da sahiptir. Klasik istatistikte, incelenen değişkenlerin normal dağılım gösterdiği varsayımına dayalı olarak tahmin yapılmaktadır. Bootstrap yönteminde ise veri setinden şansa bağlı örnekler alınarak istatistiksel tahminler yapılmaktadır. Bu yöntemle, 183

5 Coflgun ve Karaa ao lu çok küçük veri setlerinden bile doğru yanıtlar alınabilmekte, büyük veri setlerinde ise klasik istatistik sonuçlarla paralellik sağlanmakta ve hemen hemen tüm istatistikler analiz edilebilmektedir. Çapraz geçerlilik Gen ekspresyon veri setlerinde olduğu gibi olgu sayısının az olduğu deney düzenlerinde kullanışlı bir genelleştirme aracıdır. Mikrodizilim verileri üzerinde yapılan danışmanlı öğrenme analizlerinde sıklıkla kullanılmaktadır [25,26]. Genel olarak 10-parça çapraz geçerlilik yöntemi tercih edilmektedir. Bu yöntemde veri kümesi rastgele 10 eşit parçaya ayrılır. İlk aşamada birinci parça test veri seti olarak bırakılır, geriye kalan dokuz parça eğitim seti olarak kullanılır. İkinci aşamada ise ikinci parça test veri seti olarak kullanılır, geriye kalan dokuz parça ile model bulunmaya çalışılır. Bu süreç 10 parça ayrı ayrı test seti olarak kullanılıncaya kadar devam eder. Çapraz geçerlilik sonunda her parçadan elde edilen doğru sınıflama ya da ROC eğrisi altında kalan alan gibi performans değerlerinin ortalaması alınır. Bu sonuç, ilgili yöntemin genel performansını ifade eder. 3. DANIfiMANLI ve DANIfiMANSIZ Ö RENME YÖNTEMLER Danışmanlı öğrenme yöntemleri Random forest: Son yıllarda gen ekspresyon verilerinin analizinde en çok kullanılan yöntemlerden birisi de random foresttir. En önemli avantajı çok gerekli olmasına rağmen, eğer araştırmacı boyut indirgeme analizini yapmazsa random forest algoritması çok sayıdaki gene ait ekspresyon verisini kullanarak iyi bir sınıflama ve tahmin algoritması oluşturabilir [16-18,27-30]. Gen ekspresyon verilerinde tek bir karar ağacı algoritmasından çok daha başarılı sonuçlar verdiği ispatlanmıştır [28]. Random forest birçok (binlerce) karar ağacından meydana gelen bir yapıdır. Bu analiz sırasında random forestteki her bir ağaç için bootstrap yöntemiyle veri setinden örneklem seçilir ve seçilen verilerin 2/3 ü ağaç oluşturmak için kullanılır ve bir sınıflama yapar (Şekil 3). Bu sınıflamalar oy (vote) alır. Random forest algoritması ise forest içindeki tüm ağaçlardan en çok oy alanı seçer ve onun sınıflamasını kullanır. Düşük hata oranına sahip ağaç daha iyi sınıflayıcıdır. Random forestte hata oranı iki şeye bağlıdır: i) İki ağaç arasındaki korelasyona, korelasyon arttıkça hata oranı artar. ii) Her ağacın kendi hata oranı. Random forestin bazı avantajları ise şu şekildedir: 1. Random forestte aşırı uyum olmaz. 2. İstediğiniz kadar ağaç türetebilirsiniz. 3. Hızlı bir algoritmadır. 4. Elde edilen random forest diğer veri setlerinde kullanılmak üzere saklanabilir. 5. Eksik veri analizlerinde çok etkili bir yöntemdir, doğru sınıflama oranı eksik veriler olsa da devam eder. 6. Binlerce gen herhangi bir eleme yapmadan kullanabilir. 7. Danışmansız (Unsupervised) kümeleme yönteminde kullanılabilir. Destek vektör makinesi: Gen ekspresyon verilerinin en büyük sorunu doğrusal olmayan ilişkiye sahip verileri içermesidir [31-33]. Genler arasındaki bağlantıları belirlemek bu nedenle çok zordur. Bu durum göz önüne alınmadan yapılacak analizler yanlı olabilmektedir. Destek vektör makinesi yöntemi bu sorunu en iyi çözen yöntemlerdendir. Kullandığı çekirdek fonksiyonlar sayesinde Tüm veri Eğitim veri seti Test veri seti In Bag (eğitim setinin 2/3 ü) Out of Bag (eğitim setinin 1/3 ü) Şekil 3. Random forest algoritması akış şeması. 184 H ACETTEPE T IP D ERG S

6 Veri madencili i yöntemleriyle mikrodizilim gen ifade analizi genler arasındaki ilişkileri anlaşılabilir hale getirir. Bunu şu şekilde yapar: Doğrusal olarak sınıflanabilen verileri birbirinden ayırt edebilmek için olası pek çok doğrusal fonksiyon içerisinden marjini en büyük olanı belirler. Herhangi bir şekilde doğrusal olarak sınıflanamayan verileri daha yüksek boyutlu uzaya aktarır ve marjini en büyük olan hiper-düzlemleri bulur. Veriler bu ayırt edici hiper-düzleme göre sınıflara atanır (Şekil 4). Buna ek olarak, veri setine yeni giren verilerin hangi sınıfta olduğu da kestirilebilir. Verileri çok boyutlu uzayda kategorilere ayırmak için farklı çekirdek fonksiyonlar kullanılabilir. En sık kullanılan çekirdek fonksiyonları: Doğrusal, çokterimli, radyal temel fonksiyonu (RTF) ve sigmoiddir [34,35]. Karar ağacı yöntemleri: Sınıflama ve regresyon ağaçları yöntemi (classification and regression tree: CART): CART sayısal veya kategorik değişkenleri, yine bir grup sayısal veya kategorik faktör etkisinden tahmin etmeye yarayan bir algoritmadır. Gen ekspresyonu verileriyle doz tahmini yapılmak istendiğinde kullanılabilecek yöntemlerdendir. Ağaç yapısında olup bir olayın sonuçlandırılmasında sorunun yanıtına göre hareket eder. Kullandığı bilgi ölçütü gini indeksi dir. Girdi değişkenler ağacın bölünme aşamasında sadece 2 ye bölünebilir. Bu nedenle fazla sayıda kategori içeren girdi değişken varlığında dezavantaja sahiptir. n gini indeksi (D) = 1 - j=1 C4.5 algoritması: ID.3 karar ağacı algoritmasının devamı olan bu yöntemde bölünme kriteri gain ratio dur. Özellikle çok fazla girdi değişkene sahip veri tabanlarında ID.3 yönteminin bölünme kriteri olan information gain in yanlı bölünmeler yapma olasılığı yükseldiğinden, bu yöntem son derece kullanışlıdır. Şekil 4. Destek vektör makinesi algoritması problem çözümü. Cilt 42 Say Ρ 2 j alt düzlem Gain ratio = SplitInfo A (D) = - v D j D CHAID (CHi-squared automatic interaction detector): Sürekli sayısal veya kategorik değişken tipleriyle kullanılabilen bir karar ağacı algoritmasıdır. CHAID, ağacın bölünme aşamasında ki-kare istatistiğini kullanır. CHA- ID algoritması tüm girdi ve çıktı değişkenler için çapraz tablolar hazırlar ve en anlamlı olandan (en küçük p değeri) en az anlamlı olana doğru ağaç bölünmeye başlar. Amaç, ağacın yapraklarının, sadece ikili değil, daha fazla sayıda bölünebilmesini sağlamaktır. Bu açıdan diğer karar ağaçlarından ayrılmaktadır. Boosted ağaç (tree) yöntemi (BT): Boosting tree algoritması, boosting yönteminin regresyon ağaçlarına uygulanması sonucu ortaya çıkmıştır. Bu nedenle iki algoritma kullanır: Boosting ve CART. Danışmanlı (supervised) yöntemlerdendir. BRT yöntemi binlerce ağaç üretir. Ancak diğer ağaç tabanlı yöntemlerden farkı, ürettiği her yeni ağacı, bir önceki ağacın artıklarını fit ederek yapar. Elde edilen sonuç modeli regresyon denklemi gibidir. Denklemdeki her bir değişken genlerden oluşur. Böylece yansız ve kesin tahminler yapabilen son sınıflama/regresyon modeli oluşturulmuş olur. Bu yaklaşıma stagewise adı verilmiştir (Şekil 5). Kanser araştırmalarında yapılan modelleme hatasını en aza indirgediği için yüksek doğrulukta sonuçlar verdiği bilinmektedir [15]. Danışmansız öğrenme (kümeleme) yöntemleri Bu kısımda sadece veri madenciliği kapsamındaki Kohonen Map kümeleme yöntemine odaklanılmıştır. Bu yöntemin daha çok bilinen ve bazı genetik araştırmalarda halen kullanılan K-ortalama yöntemine göre avantajı ise: K-Ortalama yöntemindeki en az küme sayısı 2, en fazla küme sayısı ise gözlem sayısına eşit ya da daha az olacak şekilde belirleme zorunluluğunun olmamasıdır [36]. K-Ortalama yönteminin bu varsayımı özellikle genetik araştırmalarda az hasta çok gen senaryosu ile çok sık karşılaşıldığından zorlayıcıdır. Bununla birlikte K-Ortalama yönteminin çok sayıda aykırı gözlemin bulunduğu gen ekspresyon verilerinde başarılı olamadığı önceki çalışmalarda rapor edilmiştir [37]. Kohonen map kümeleme yöntemi: Kohonen Map, Self Organizing Map, olarak da bilinen, kümeleme amaçlı kullanılan, yapay sinir ağı çeşididir. Bu network algoritması, analizden önce hangi grupta olduğu bilinmeyen verileri, birbirinden bağımsız kümelere ayırmakta kullanılır. Kümelerin varyansları kendi içinde küçük, birbirleri arasında ise büyüktür. Analizde temel nokta nöron lardır. Bu nöronlar iki tabakadan oluşur: Girdi ve çıktı nöronlar (Şekil 6). Tüm girdi nöronlar, çıktı nöronlar ile bağlıdır. Bu bağlar, Güç veya Ağırlık ola- j=1 D j x log 2 ( ) D 185

7 Coflgun ve Karaa ao lu BRT Toplumsal Model (STAGEWISE) 1. Ağaç 2. Ağaç 1. Ağacın artıklarını fit etmeye çalışıyor 2. Ağacın artıklarını fit etmeye çalışıyor 3. Ağaç Reg. Model: sabit+a* 1. Ağaç + b* 2. Ağaç t* M. Ağaç Şekil 5. Boosted tree algoritması. Şekil 6. Kohonen map algoritması akış şeması. Çıktı tabakası Girdi tabakası rak adlandırılan ölçülerle ifade edilir. Algoritma çalıştığında çıktı nöronlar, en çok veriyi kendilerine bağlamak için yarışır. Çıktı haritası, nöronların iki boyutlu, birbirleriyle ilişkisiz grid yapısında görünüme sahip bir haritasıdır. Herhangi bir hedef değişkene ihtiyaç duymamasından dolayı, danışmansız öğrenme tekniklerindendir [4,7,27,38]. Algoritma, öncelikle tüm girdi nöronlar için, çıktı nöronlara rastgele olarak ağırlıklar atar. En güçlü ağırlığa göre verileri çıktı nöronlara atar. Analiz sonunda, benzer veriler grid üzerinde aynı yerde, farklı olanlar ise, uzak gridlere ayrılır. 4. PERFORMANS KARfiILAfiTIRMA KR TERLER Veri madenciliğinde gen ekspresyon verileriyle bireylerin sınıflanması sık görülen uygulamalardandır. Ancak veri madenciliğinde her veri setinde en iyi sınıflama sonucunu verecek bir yöntem yoktur. Çalışılan popülasyon, yaş grubu ya da hastalık, analiz edilen veri setindeki gen sayısı, hasta sayısı, genler için sinyal ortalama ve varyansı, genler arasındaki korelasyon göz önüne alındığında farklı yöntemler daha güvenilir ve yüksek doğrulukta sonuçlar verebilir. Bu nedenle olası tüm yöntemler ya da yöntemler bütünü denenmeli ve en iyi sonucu veren yaklaşım tercih edilmelidir. Peki bu yöntemleri birbirinden nasıl ayırt edebiliriz? İkiden çok hasta grubunun olduğu çalışmalarda (çok sınıflı-sınıflama çalışmaları) doğruluk (accuracy, doğru sınıflanan bireylerin sayısının tüm bireylerin sayısına oranı) ölçüsünün kullanılması önerilir. Çalışma türü ve grubuna göre değişmekle birlikte %75 lik doğruluk kabul edilebilir bir orandır. Olgu-kontrol çalışmalarında (iki sınıflı-sınıflama çalışmaları) gen ekspresyon verisiyle tanı tahmini yapılması planlanıyorsa doğruluk değeri gibi standart bir kriterin dışında veri madenciliğine özel kullanılan alternatif performans karşılaştırma kriterleri mevcuttur. Bunlar: ROC eğrisi altında kalan (AUC: Area Under ROC Curve) ROC eğrisi bir tanı testine ilişkin duyarlılık ve özgüllük değerleri arasındaki ilişkiyi grafiksel olarak gösterir. ROC eğrisi yanlış pozitif orana (duyarlılık) karşın doğru pozitif oranların (1-seçicilik) noktalanarak çizilmesiyle elde edilir [39]. Bu eğrinin altında kalan alanın hesaplanmasıyla AUC elde edilir. AUC, veri madenciliği literatüründe çok sık kullanılan sıralamaya dayalı (ranking) bir performans kriteridir [33,39-42] (Şekil 7). AUC, veri madenciliği sınıflayıcı modelinin hasta ve sağlıklı kişilerden rastgele seçilmiş iki kişiyi doğru tanımlayabilme olasılığı olarak ifade edilebilir [33]. 0 ile 1 arasında değerler alabilir; 0.5 değeri rastgele bir tahmin olduğunu, 1 e yakın değerler modelin tahmin gücünün yüksek olduğunu gösterir. 186 H ACETTEPE T IP D ERG S

8 Veri madencili i yöntemleriyle mikrodizilim gen ifade analizi Doğru pozitif oran Yanlış pozitif oran Şekil 7. Örnek ROC eğrisi. Diğer kriterlerin aksine, göreli sınıf dağılımdan etkilenmez. Bu nedenle mikrodizilim gen ifade çalışmalarında kullanımı yaygındır [33,39,43]. AUC şu şekilde ifade edilebilir: AUC = P[Y D > Y_ D ] Y D : Hastaların dağılımı Y _ D : Sağlıklıların dağılımı Matthews korelasyon katsayısı Veri madenciliğinde iki sınıflı sınıflama problemlerinde model kalitesini belirten bir ölçüdür. En önemli özelliği sınıflardaki kişi sayıları dengesiz olduğunda diğer kriterlere göre daha doğru sonuç vermesidir. [-1 ile 1] arasında değerler alır. 1 en iyi tahmini, 0 şansa bağlı bir tahmin yapıldığını, -1 ise ters tahmin yapıldığını belirtir. Ki-kare istatistiği ile ilişkilidir. n çalışmadaki kişi sayısını belirtirken: MKK = Ayrıca, 2 x 2 tahmin tablosundan da şu şekilde elde edilebilir: MKK = X 2 n (DP x DN) - (YP x YN) (DP + YP) (DP + YN) (DN + YP) (DN + YN) Tablo 2. Gerçek tanı değerine karşılık gelen tahmin edilen tanıyı gösteren tablo VM ile tahmin Gerçek tanı edilen tanı Hasta Sağlıklı Toplam Hasta DP YP P Sağlıklı YN DN N Toplam P N VM: Veri madenciliği, DP: Doğru pozitif, YP: Yanlış pozitif, YN: Yanlış negatif, DN: Doğru negatif, N: Negatif, P: Pozitif. Brier skor: İki durumlu sınıflama problemlerinde (hasta-sağlıklı) veri madenciliği yöntemleriyle yapılan sınıf tahmin olasılıklarının doğruluğunu test etmek için kullanılan bir ölçüdür. [0-1] arasında değişen değerler alır. 0 a ne kadar yakınsa yapılan sınıf tahminleri o kadar güvenilirdir. Her bir hasta için tahmin edilen sınıf olasılığı ve gerçek sınıf değerleri arasındaki farkının kareler ortalaması ile hesaplanır [32]: 1 n BS = n t =1(f τ o τ ) 2 o t = t.hastanın gerçek tanısı f t = t.hastanın veri madenciliği modelleri ile tahmin edilen tanı olasılığı n= hasta sayısı Yukarıda açıklananlar dışında genel olarak bilinen diğer performans ölçüleri (Tablo 2): Doğruluk (accuracy) = (DP + DN)/(P + N) Recall (sensitivity) = DP/(DP + YN) Precision (pozitif tahmin değeri) = DP/(DP + YP) F-ölçüsü: (Precision x Recall)/(Precision + Recall) 5. GEN ONTOLOJ S Ekspresyon verilerinin analizinde yöntemlerin doğru seçimi ve uygulanma sırası kadar elde edilen bulguların biyolojik anlamının araştırılması da önemlidir. Veri madenciliği yazılımlarının birçoğu bu konuda da araştırıcılara yardımcı olmaktadır. Özellikle ORANGE programı bu konuda bir adım öndedir. Canvas olarak adlandırılan çalışma alanında birçok veri tabanına bağlanma ve sorgu yapma imkanı sunan ikonlara sahiptir (Şekil 8). Kullanıcı çok az tecrübeye sahip olsa bile rahatlıkla analizlerinde önemli bulduğu genlerin biyolojik anlamlarına ulaşabilir. ORANGE dışında, [R] yazılımı da farklı birçok paket ile gen ontolojisi konusunda kullanışlıdır. Bu paketlerden en önemlileri topgo, GOSim dir. Yazılımların içerdiği paketler dışında gen ontolojisi sürekli olarak güncellenen birçok gen ontoloji internet sitesi/projesi mevcuttur. Bunlardan bazıları: The Kyoto Gen ve Genom Ansiklopedisi (KEGG), Gene Map Annotator and Pathway Profiler (GenMAPP), BioCarta, Adenylate-Rich Element Database (ARED) dir. Cilt 42 Say

9 Coflgun ve Karaa ao lu Şekil 8. ORANGE programında gen ontoloji seçenekleri. SONUÇ ve ÖNER LER Hastalıkların tedavisi, yeni ilaç keşifleri ve hastalıkları önlemeye yönelik çalışmalarda genetik verilerin önemi giderek artmaktadır. Ülkemizde de biyobanka ların yaygınlaşması ve genetik araştırmalara ayrılan kaynakların artmasıyla bu alanda ciddi ilerlemeler kaydedilmiştir. Yeni genlerin ve tedavilerin bulunması bunlardan sadece birkaçıdır. Araştırıcılarımızın başarılı çalışmalarının sonuca ulaşması ve hastalara doğrudan etki edebilmesi için genetik araştırmalardan karmaşık bilgi birikimini çıkarmak gerekmektedir. Bu nedenle ülkemizde de biyoistatistik ve biyoinformatik uzmanlarına duyulan gereksinim artmaktadır. Hem biyolojik bilgiye hakim hem de hangi analiz yöntemini ne zaman kullanacağını bilen uzmanlarla çok daha geçerli tedavi yöntemlerinin bulunacağı açıktır. Analizi yapacak araştırmacı bu çalışmada sunulan adımları sırasıyla ve doğru şekilde uygularsa veriden mümkün olan en fazla bilgiyi çıkaracaktır. Tüm bunlarla birlikte elde edilecek veri madenciliği modelleri sayesinde kişiye özel tedavinin de yolu açılacaktır. Bu sonuç bile uzun vadede veri madenciliğine kadar gerek duyulduğunu göstermektedir. Ayrıca, günümüzde araştırmalara harcanan paranın büyük kısmı yazılım alımına ayrılmaktadır. Ancak alınan yazılımların çoğu kullanıcıları kısıtlamakta ve kendi deney planlarını yapmasına engel olmaktadır. Hatta birçoğu bu çalışmada da açıklanan yeni nesil veri madenciliği yöntemlerini içermemektedir. Bu çalışmanın genetik araştırmalarda çalışan uzmanlara analizlerinde daha özgür davranabilmelerini sağlayacak açık kaynak kodlu-ücretsiz programları tanıtmak adına da önemli olduğunu düşünmekteyiz. Bu mantıktan hareketle Gene3E adlı [R] yazılımının kodlarını kullanan java analiz aracını da geliştirmiş ve araştırıcıların kullanımına sunmuş bulunmaktayız [44]. Çalışmamızda genetik veri türlerinden Mikrodizilim Gen İfade verilerinin analizinde takip edilmesi gereken yol açıklanmıştır. Bu veri türü dışında SNP, Exon Array ve Next Generation Dizi veri türleri için de farklı birçok yazılım ve veri madenciliği yöntemi bulunmaktadır. Özellikle günümüzde maliyet olarak daha makul seviyelere gelen Genome Wide Association Study (GWAS) çalışmaları da veri madenciliği için önemli bir çalışma alanıdır. Bundan sonraki çalışmamızda bu verilerin türlerini de kapsayacak ayrıntılı analiz akış şemalarının çıkarılması planlanmaktadır. 188 Kaynaklar 1. Cosgun E, Limdi N, Duarte CW. High dimensional pharmacogenetic prediction of a continuous trait using machine learning techniques with application to warfarin dose prediction in African American. Bioinformatics 2011; 27:10: Cosgun E, Karaagaoğlu E. The new hybrid method for classification of patients by gene expression profiling. In: Suh Sang C, Gurupur Vadadraj P, Tanik Murat M (eds). Biomedical Engineering: Healthcare Systems, Technology and Techniques, Springer. 1 st ed. 2011: Parrish RS, Spencer HJ, Xu P. Distribution modelling and simulation of gene expression data. Computational Statistics and Data Analysis, Tamayo P, Slonim D, Mesirov J, Zhu Q, et al. Interpreting patterns of gene expression with self-organizing maps: methods and application to hematopoietic differentiation. Proc Natl Acad Sci 1999; 96: Lee SI, Batzoglou S. An Application of Independent Component Analysis to Microarrays, Genome Biology, 2003; 4:R Han J. How Can Data Mining Help Bio-Data Analysis? Workshop on Data Mining in Bioinformatics Zhang K, Zhao H. Assessing reliability of gene clusters from gene expression data. Functional Integrated Genomics 2000: Dettling M, Buhlmann P. Boosting for tumor classification with gene expression data. Bioinformatics 2003; 3: Wang LY, Tu Z., Lung tumor diagnosis and subtype discovery by gene expression profiling, Conf Proc IEEE Eng Med Biol Soc 2006; 1: Coşgun E, Karabulut E, Karaağaoğlu E. Random Forest (RF) ve SVM ile Mikrodizilim Verilerde Gen Seçimi, VI. Ulusal İstatistik Kongresi, 29 Nisan-3 Mayıs 2009, Antalya, Türkiye. 11. Yeung KY, Medvedovic M, Bumgarner RE. Clustering Gene Expression Data With Repeated Measurements, Genome Biology 2003; 4:R Park HS, Jun CH, Yoo JY. Classifying genes according to predefined patterns by controlling false discovery rate. Expert Systems with Applications 2009; 36: Ruffino E, Muselli M, Valentini G. Biological specifications for a synthetic gene expression data generation model, lecture notes in computer. Science 2006; 3849: Chin YL, Deris S. A study on gene selection and classification algorithms for classification of microarray gene expression data. Jurnal Teknologi 2005; 43: Li L, Weinberg CR, Darden TA, Pedersen LG. Gene selection for sample classification based on gene expression data: study of sensitivity to choice of parameters of the GA/KNN method. Bioinformatics 2001; 17: Dudoit S, Fridlyand J, Speed TP. Comparison of discrimination methodsfor the classification of tumors using gene expression data Technical Report 576, Department of Statistics, University of California, Berkeley. H ACETTEPE T IP D ERG S

10 Veri madencili i yöntemleriyle mikrodizilim gen ifade analizi 17. Ben-Dor A, Bruhn L, Friedman N, Nachman I, Schummer M, Yakhini N. Tissue classification with gene expression profiles. Journal of Computational Biology 2000; 7: Jagota A. Microarray Data Analysis and Visualization, Bioinformatics by the Bay Press, Santa Cruz, DNA Mikroarray/DNA Mikrodizilimi: Hematolojide Kullanım Alanlar, Tayfun ÖZÇELIK, XXX. Ulusal Hematoloji Kongresi, Mezuniyet Sonrası Eğitim Kursu Dokümanı. Erişim adresi: Erişim tarihi: Doç. Dr. Hatice Mergen kişisel internet sayfası. Erişim tarihi: 10 Eylül Erişim adresi: hacettepe.edu.tr/~mergen/derleme/d_microarray.pdf 21. Frank E, Hall MA, Holmes G, Kirkby R, Pfahringer B. Witten, TriggL. Weka-a machine learning workbench for data mining. In: Maimon O, Rokach L (eds). The Data Mining and Knowledge Discovery Handbook, Springer 2005: Demsar J, Leban G, Zupan B, FreeViz. An Intelligent Visualization Approach for Class-Labeled Multidimensional Data Sets, Intelligent Data Analysis in Medicine and Pharmacology Workshop-2005-Scotland, UK. 23. Hyvärinen A, Oja E. Independent component analysis: algorithms and application. Neural Networks 2000; 13: International Journal of Innovative Computing, Information and Control ICIC International, Independent Component Analysis for Classification of Remotely Sensed Images, 2006; 2: Ulisses M. Braga-Neto1,3 and Edward R. Dougherty, Is cross-validation valid for small-sample microarray classification? Bioinformatics 2004; 20: doi: / bioinformatics/btg Boulesteix AL, Strimmer K. Predicting transcription factor activities from combined analysis of microarray and ChIP data: a partial least squares approach, heoretical. Biology and Medical Modelling 2005; 2: Jin X, Bie R. Random Forest and PCA for Self-Organizing Maps Based Automatic Music Genre Discrimination, Conference on Data Mining, 2006: Leo B. Random forests. Machine Learning 2001; 45: Shi T, Horvath S. Unsupervised learning with random forest predictors. Journal of Computational and Graphical Statistics 2006; 15: Amaratunga D, Cabrera J, Lee YS. Enriched random forests. Bioinformatic 2008; 24: Huerta M, Cedano J, Querol E. Analysis of nonlinear relations between expression profiles by the principal curves of oriented-points approach. J Bioinform Comput Biol 2008; 6: Brier GW. Verification of forecasts expressed in terms of probability. Monthly weather review 1950; 78: Airola A. A comparison of AUC estimators in small-sample studies. Machine Learning in Systems Biology 2010; 8: Vapnik V. Estimation of Dependences Based on Empirical Data [in Russian]. Nauka, Moscow, (English translation: Springer, New York, 1982). 35. Karabulut E, Karaağaoglu E. Biyoinformatik ve biyoistatistik. Hacettepe Tıp Dergisi 2010; 41: Alpar CR. Uygulamalı Çok Değişkenli İstatistiksel Yöntemlere Giriş, Nobel Yayın Evi, Ocak 2003; ISBN: Bação F, Lobo V, Painho M. Self-organizing maps as substitutes for K-Means Clusteringö Lecture Notes in Computer Science, 2005; 3516/2005, 9-28, DOI: / _ Wehrens R, Buydens LMC. Self and super-organizing maps in R: the kohonen package. J Stat Soft 2007; 21: Bradley AP. The use of the area under the ROC curve in the evaluation of machine learning algorithms. Pattern Recognition 1997; 30:1145: Vanderlooy S, Hullermeier E. A critical analysis of variants of the AUC. Machine Learning 2008; 72:247: Waegeman W, De Baets B, Boullart L. ROC analysis in ordinal regression learning. Pattern Recognition Letters 2008; 29:1: Baker S, Kramer B. Identifying genes that contribute most to good classification in microarrays. BMC Bioinformatics 2006; 7: Gevaert O, Smet FD, Timmerman D, Moreau Y, Moor BD. Predicting the prognosis of breast cancer by integrating clinical and microarray data with bayesian networks. Bioinformatics 2006; 22: Cosgun E, Aksarı Y. GENE 3E: a new bioinformatics tool for genetic data mining, Society for Design and Process Conference, June , Jeju, South Korea. Cilt 42 Say

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr Genel İçerik Veri Madenciliğine Giriş Veri Madenciliğinin Adımları Veri Madenciliği Yöntemleri Sınıflandırma

Detaylı

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining) Web Madenciliği (Web Mining) Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Konular Denetimli Öğrenmenin Temelleri Karar Ağaçları Entropi ID3 Algoritması C4.5 Algoritması Twoing

Detaylı

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining) Web Madenciliği (Web Mining) Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Konular Sınıflandırıcıların Değerlendirilmesi Skorlar Karışıklık matrisi Accuracy Precision Recall

Detaylı

İSTATİSTİKSEL DARALTICI (SHRINKAGE) MODEL VE UYGULAMALARI * A Statistical Shrinkage Model And Its Applications*

İSTATİSTİKSEL DARALTICI (SHRINKAGE) MODEL VE UYGULAMALARI * A Statistical Shrinkage Model And Its Applications* Ç.Ü. Fen Bilimleri Enstitüsü Yıl:010 Cilt:-1 İSTATİSTİKSEL DARALTICI (SHRINKAGE) MODEL VE UYGULAMALARI * A Statistical Shrinkage Model And Its Applications* Işıl FİDANOĞLU İstatistik Anabilim Dalı Fikri

Detaylı

Sıralama Öğrenme ile Sağkalım Tahminleme

Sıralama Öğrenme ile Sağkalım Tahminleme Boğazda Yapay Öğrenme İsmail Arı Yaz Okulu 08 Sıralama Öğrenme ile Sağkalım Tahminleme Öznur Taştan Mühendislik ve Doğa Bilimleri Fakültesi Bilgisayar Bilimi ve Mühendisliği Moleküler Biyoloji, Genetik

Detaylı

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data) Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data) M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Bu dersin sunumları, The Elements of Statistical Learning: Data

Detaylı

Karaciğerde Oluşan Hastalıkların Tespitinde Makine Öğrenmesi Yöntemlerinin Kullanılması

Karaciğerde Oluşan Hastalıkların Tespitinde Makine Öğrenmesi Yöntemlerinin Kullanılması Karaciğerde Oluşan Hastalıkların Tespitinde Makine Öğrenmesi Yöntemlerinin Kullanılması 1 Emre DANDIL Bilecik Ş. Edebali Üniversitesi emre.dandil@bilecik.edu.tr +90228 214 1613 Sunum İçeriği Özet Giriş

Detaylı

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining) Web Madenciliği (Web Mining) Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Konular Denetimsiz Öğrenmenin Temelleri Kümeleme Uzaklık Fonksiyonları Öklid Uzaklığı Manhattan

Detaylı

Veri ve Metin Madenciliği

Veri ve Metin Madenciliği Veri ve Metin Madenciliği Zehra Taşkın Veri Madenciliği Bir kutu toplu iğne İçine 3 boncuk düşürdünüz Nasıl alacağız? Fikirler? Veri Madenciliği Data Information Knowledge Veri madenciliği; Büyük yoğunluklu

Detaylı

Veri ve Metin Madenciliği. Zehra

Veri ve Metin Madenciliği. Zehra Veri ve Metin Madenciliği Zehra Taşkın @zehrataskin Büyük Veri https://www.youtube.com/watch?v=tzxmjbl-i4y Veri Madenciliği Bir kutu toplu iğne İçine 3 boncuk düşürdünüz Nasıl alacağız? Veri Madenciliği

Detaylı

LOJİSTİK REGRESYON ANALİZİ

LOJİSTİK REGRESYON ANALİZİ LOJİSTİK REGRESYON ANALİZİ Lojistik Regresyon Analizini daha kolay izleyebilmek için bazı terimleri tanımlayalım: 1. Değişken (incelenen özellik): Bireyden bireye farklı değerler alabilen özellik, fenomen

Detaylı

QUANTILE REGRESYON * Quantile Regression

QUANTILE REGRESYON * Quantile Regression QUANTILE REGRESYON * Quantile Regression Fikriye KURTOĞLU İstatistik Anabilim Dalı Olcay ARSLAN İstatistik Anabilim Dalı ÖZET Bu çalışmada, Lineer Regresyon analizinde kullanılan en küçük kareler yöntemine

Detaylı

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı Hatice NİZAM İstanbul Üniversitesi Bilgisayar Mühendisliği Bölümü haticenizam@outlook.com Saliha Sıla AKIN ERS Turizm Yazılım Şirketi, Bilgisayar

Detaylı

T.C. ERCİYES ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ EĞİTİM ÖĞRETİM YILI DERS KATALOĞU

T.C. ERCİYES ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ EĞİTİM ÖĞRETİM YILI DERS KATALOĞU T.C. ERCİYES ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ - EĞİTİM ÖĞRETİM YILI DERS KATALOĞU Ders Kodu Bim Kodu Ders Adı Türkçe Ders Adı İngilizce Dersin Dönemi T Snf Açıl.Dönem P

Detaylı

K En Yakın Komşu Methodu (KNearest Neighborhood)

K En Yakın Komşu Methodu (KNearest Neighborhood) K En Yakın Komşu Methodu (KNearest Neighborhood) K-NN algoritması, Thomas. M. Cover ve Peter. E. Hart tarafından önerilen, örnek veri noktasının bulunduğu sınıfın ve en yakın komşunun, k değerine göre

Detaylı

Uzaktan Algılama Teknolojileri

Uzaktan Algılama Teknolojileri Uzaktan Algılama Teknolojileri Ders 11 Hiperspektral Görüntülerde Kümeleme ve Sınıflandırma Alp Ertürk alp.erturk@kocaeli.edu.tr Sınıflandırma Sınıflandırma işleminin amacı, her piksel vektörüne bir ve

Detaylı

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr İçerik Kümeleme İşlemleri Kümeleme Tanımı Kümeleme Uygulamaları Kümeleme Yöntemleri Kümeleme (Clustering) Kümeleme birbirine

Detaylı

VERİ MADENCİLİĞİNE BAKIŞ

VERİ MADENCİLİĞİNE BAKIŞ VERİ MADENCİLİĞİNE BAKIŞ İçerik Veri Madenciliği Neden Veri Madenciliği? Veri ve Veri Madenciliğinin Önemi Günümüzde Kullanılan Veri Madenciliğinin Çeşitli İsimleri Veri Madenciliği Nedir? Neden Veri Madenciliği?

Detaylı

Tanı Testlerinin Değerlendirilmesi. ROC Analizi. Prof.Dr. Rian DİŞÇİ

Tanı Testlerinin Değerlendirilmesi. ROC Analizi. Prof.Dr. Rian DİŞÇİ Tanı Testlerinin Değerlendirilmesi ROC Analizi Prof.Dr. Rian DİŞÇİ İstanbul Üniversitesi, Onkoloji Enstitüsü Kanser Epidemiyolojisi Ve Biyoistatistik Bilim Dalı Tanı Testleri Klinik çalışmalarda, özellikle

Detaylı

TANI TESTLERINE GIRIŞ & ROC ANALİZİ

TANI TESTLERINE GIRIŞ & ROC ANALİZİ TANI TESTLERINE GIRIŞ & ROC ANALİZİ Yrd.Doç.Dr. Selçuk Korkmaz Trakya Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı Turcosa Analitik Çözümlemeler selcukorkmaz@gmail.com ÇOCUK NEFROLOJİ DERNEĞİ

Detaylı

BKİ farkı Standart Sapması (kg/m 2 ) A B BKİ farkı Ortalaması (kg/m 2 )

BKİ farkı Standart Sapması (kg/m 2 ) A B BKİ farkı Ortalaması (kg/m 2 ) 4. SUNUM 1 Gözlem ya da deneme sonucu elde edilmiş sonuçların, rastlantıya bağlı olup olmadığının incelenmesinde kullanılan istatistiksel yöntemlere HİPOTEZ TESTLERİ denir. Sonuçların rastlantıya bağlı

Detaylı

Bulanık Mantık Tabanlı Uçak Modeli Tespiti

Bulanık Mantık Tabanlı Uçak Modeli Tespiti Bulanık Mantık Tabanlı Uçak Modeli Tespiti Hüseyin Fidan, Vildan Çınarlı, Muhammed Uysal, Kadriye Filiz Balbal, Ali Özdemir 1, Ayşegül Alaybeyoğlu 2 1 Celal Bayar Üniversitesi, Matematik Bölümü, Manisa

Detaylı

ÖZGEÇMİŞ. 1. Adı Soyadı : Kamile ŞANLI KULA İletişim Bilgileri : Ahi Evran Üniversitesi, Fen Edebiyat Fakültesi, Adres Matematik Bölümü, KIRŞEHİR

ÖZGEÇMİŞ. 1. Adı Soyadı : Kamile ŞANLI KULA İletişim Bilgileri : Ahi Evran Üniversitesi, Fen Edebiyat Fakültesi, Adres Matematik Bölümü, KIRŞEHİR Resim ÖZGEÇMİŞ 1. Adı Soyadı : Kamile ŞANLI KULA İletişim Bilgileri : Ahi Evran Üniversitesi, Fen Edebiyat Fakültesi, Adres Matematik Bölümü, KIRŞEHİR Telefon : 386 280 45 50 Mail : kskula@ahievran.edu.tr

Detaylı

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir sınıflandırma: temel kavramlar, karar ağaçları ve model değerlendirme Sınıflandırma : Tanım Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir Eğitim setindeki her kayıt

Detaylı

A. SCI ve SCIE Kapsamındaki Yayınlar

A. SCI ve SCIE Kapsamındaki Yayınlar A. SCI ve SCIE Kapsamındaki Yayınlar A.1. Erilli N.A., Yolcu U., Egrioglu E., Aladag C.H., Öner Y., 2011 Determining the most proper number of cluster in fuzzy clustering by using artificial neural networks.

Detaylı

2. BASİT DOĞRUSAL REGRESYON 12

2. BASİT DOĞRUSAL REGRESYON 12 1. GİRİŞ 1 1.1 Regresyon ve Model Kurma / 1 1.2 Veri Toplama / 5 1.3 Regresyonun Kullanım Alanları / 9 1.4 Bilgisayarın Rolü / 10 2. BASİT DOĞRUSAL REGRESYON 12 2.1 Basit Doğrusal Regresyon Modeli / 12

Detaylı

BİYOİSTATİSTİK DERSLERİ AMAÇ VE HEDEFLERİ

BİYOİSTATİSTİK DERSLERİ AMAÇ VE HEDEFLERİ BİYOİSTATİSTİK DERSLERİ AMAÇ VE HEDEFLERİ DÖNEM I-I. DERS KURULU Konu: Bilimsel yöntem ve istatistik Amaç: Biyoistatistiğin tıptaki önemini kavrar ve sonraki dersler için gerekli terminolojiye hakim olur.

Detaylı

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, 15-18 Nisan 2009, ODTÜ, Ankara

PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI. BAŞARIM 09, 15-18 Nisan 2009, ODTÜ, Ankara PARALEL VERİ MADENCİLİĞİ ALGORİTMALARI BAŞARIM 09, 15-18 Nisan 2009, ODTÜ, Ankara Veri Madenciliğine Genel Bir Bakış Veri Madenciliğinin Görevleri Sınıflama Seri Sınıflama Algoritmaları Paralel Sınıflama

Detaylı

KİNETİK MODEL PARAMETRELERİNİN BELİRLENMESİNDE KULLANILAN OPTİMİZASYON TEKNİKLERİNİN KIYASLANMASI

KİNETİK MODEL PARAMETRELERİNİN BELİRLENMESİNDE KULLANILAN OPTİMİZASYON TEKNİKLERİNİN KIYASLANMASI KİNETİK MODEL PARAMETRELERİNİN BELİRLENMESİNDE KULLANILAN OPTİMİZASYON TEKNİKLERİNİN KIYASLANMASI Hatice YANIKOĞLU a, Ezgi ÖZKARA a, Mehmet YÜCEER a* İnönü Üniversitesi Mühendislik Fakültesi Kimya Mühendisliği

Detaylı

Oluşturulan evren listesinden örnekleme birimlerinin seçkisiz olarak çekilmesidir

Oluşturulan evren listesinden örnekleme birimlerinin seçkisiz olarak çekilmesidir Bilimsel Araştırma Yöntemleri Prof. Dr. Şener Büyüköztürk Doç. Dr. Ebru Kılıç Çakmak Yrd. Doç. Dr. Özcan Erkan Akgün Doç. Dr. Şirin Karadeniz Dr. Funda Demirel Örnekleme Yöntemleri Evren Evren, araştırma

Detaylı

BÖLÜM 6 MERKEZDEN DAĞILMA ÖLÇÜLERİ

BÖLÜM 6 MERKEZDEN DAĞILMA ÖLÇÜLERİ 1 BÖLÜM 6 MERKEZDEN DAĞILMA ÖLÇÜLERİ Gözlenen belli bir özelliği, bu özelliğe ilişkin ölçme sonuçlarını yani verileri kullanarak betimleme, istatistiksel işlemlerin bir boyutunu oluşturmaktadır. Temel

Detaylı

BULAŞICI OLMAYAN HASTALIKLAR BAKIMINDAN FARKLI ÜLKELERİN MAKİNA ÖĞRENMESİ YÖNTEMLERİ KULLANILARAK SINIFLANDIRILMASI

BULAŞICI OLMAYAN HASTALIKLAR BAKIMINDAN FARKLI ÜLKELERİN MAKİNA ÖĞRENMESİ YÖNTEMLERİ KULLANILARAK SINIFLANDIRILMASI doi: 10.17482/uujfe.36099 ARAŞTIRMA BULAŞICI OLMAYAN HASTALIKLAR BAKIMINDAN FARKLI ÜLKELERİN MAKİNA ÖĞRENMESİ YÖNTEMLERİ KULLANILARAK SINIFLANDIRILMASI Songül ÇINAROĞLU * Keziban AVCI ** Özet: Bu çalışmanın

Detaylı

Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ. Makine Öğrenmesi. Erhan AKDOĞAN, Ph.D.

Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ. Makine Öğrenmesi. Erhan AKDOĞAN, Ph.D. Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ Makine Öğrenmesi Erhan AKDOĞAN, Ph.D. Bu ders notunun hazırlanmasında Dr. U.Orhan ve Banu Diri nin ders notlarından yararlanılmıştır. Makine öğrenmesi

Detaylı

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi Erdal TAŞCI* Aytuğ ONAN** *Ege Üniversitesi Bilgisayar Mühendisliği Bölümü **Celal Bayar Üniversitesi

Detaylı

Destekçi Vektör Makineleri. Destekçi Vektör Makineleri(Support Vector Machines)

Destekçi Vektör Makineleri. Destekçi Vektör Makineleri(Support Vector Machines) Destekçi Vektör Makineleri Destekçi Vektör Makineleri(Support Vector Machines) Değişkenler arasındaki örüntülerin bilinmediği veri setlerindeki sınıflama problemleri için önerilmiş bir makine öğrenmesi

Detaylı

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN kergun@balikesir.edu.tr Genel İçerik Veri Madenciliğine Giriş Veri Madenciliğinin Adımları Veri Madenciliği Yöntemleri Sınıflandırma

Detaylı

Büyük Veri ve Endüstri Mühendisliği

Büyük Veri ve Endüstri Mühendisliği Büyük Veri ve Endüstri Mühendisliği Mustafa Gökçe Baydoğan Endüstri Mühendisliği Bölümü Boğaziçi Üniversitesi İstanbul Yöneylem Araştırması/Endüstri Mühendisliği Doktora Öğrencileri Kolokyumu 21-22 Nisan

Detaylı

MÜHENDİSLİK FAKÜLTESİ / ENSTİTÜSÜ / YÜKSEKOKULU BİLİŞİM SİSTEMLERİ MÜHENDİSLİĞİ BÖLÜMÜ /ABD LİSANS PROGRAMI - 2 ( yılı öncesinde birinci

MÜHENDİSLİK FAKÜLTESİ / ENSTİTÜSÜ / YÜKSEKOKULU BİLİŞİM SİSTEMLERİ MÜHENDİSLİĞİ BÖLÜMÜ /ABD LİSANS PROGRAMI - 2 ( yılı öncesinde birinci MÜHENDİSLİK FAKÜLTESİ / ENSTİTÜSÜ / YÜKSEKOKULU BİLİŞİM SİSTEMLERİ MÜHENDİSLİĞİ BÖLÜMÜ /ABD LİSANS PROGRAMI - 2 (2016-17 yılı öncesinde birinci sınıfa başlayan öğrenciler için) BİRİNCİ YIL 1. Dönem CMPE113

Detaylı

Hafta 09 -Topluluk Yöntemleri - Boyut Azaltma - Anomali Tespiti

Hafta 09 -Topluluk Yöntemleri - Boyut Azaltma - Anomali Tespiti Hafta 09 -Topluluk Yöntemleri - Boyut Azaltma - Anomali Tespiti BGM 565 - Siber Güvenlik için Makine Öğrenme Yöntemleri Bilgi Güvenliği Mühendisliği Yüksek Lisans Programı Dr. Ferhat Özgür Çatak ozgur.catak@tubitak.gov.tr

Detaylı

R ile Programlamaya Giriş ve Uygulamalar

R ile Programlamaya Giriş ve Uygulamalar R ile Programlamaya Giriş ve Uygulamalar İçerik R ye genel bakış R dili R nedir, ne değildir? Neden R? Arayüz Çalışma alanı Yardım R ile çalışmak Paketler Veri okuma/yazma İşleme Grafik oluşturma Uygulamalar

Detaylı

3. TAHMİN En Küçük Kareler (EKK) Yöntemi 1

3. TAHMİN En Küçük Kareler (EKK) Yöntemi 1 3. TAHMİN 3.1. En Küçük Kareler (EKK) Yöntemi 1 En Küçük Kareler (EKK) yöntemi, regresyon çözümlemesinde en yaygın olarak kullanılan, daha sonra ele alınacak bazı varsayımlar altında çok aranan istatistiki

Detaylı

Örneklemden elde edilen parametreler üzerinden kitle parametreleri tahmin edilmek istenmektedir.

Örneklemden elde edilen parametreler üzerinden kitle parametreleri tahmin edilmek istenmektedir. ÇIKARSAMALI İSTATİSTİKLER Çıkarsamalı istatistikler, örneklemden elde edilen değerler üzerinde kitleyi tanımlamak için uygulanan istatistiksel yöntemlerdir. Çıkarsamalı istatistikler; Tahmin Hipotez Testleri

Detaylı

Veri madenciliği sınıflandırma ve kümeleme teknikleri yardımıyla Wisconsin veriseti üzerinde Göğüs Kanseri Teşhisi. Hazırlayan: Nury Amanmadov

Veri madenciliği sınıflandırma ve kümeleme teknikleri yardımıyla Wisconsin veriseti üzerinde Göğüs Kanseri Teşhisi. Hazırlayan: Nury Amanmadov Veri madenciliği sınıflandırma ve kümeleme teknikleri yardımıyla Wisconsin veriseti üzerinde Göğüs Kanseri Teşhisi Hazırlayan: Nury Amanmadov Göğüs Kanseri Nedir? Gögüs Kanseri göğüs hücrelerinde başlayan

Detaylı

Zamansal Veri Madenciliği ve Anomali Tespiti için Bir Uygulama

Zamansal Veri Madenciliği ve Anomali Tespiti için Bir Uygulama Zamansal Veri Madenciliği ve Anomali Tespiti için Bir Uygulama Mehmet Yavuz ONAT Yrd.Doç.Dr.Engin YILDIZTEPE Dokuz Eylül Üniversitesi, İstatistik Bölümü Akademik Bilişim 2015, Anadolu Üniversitesi, Eskişehir

Detaylı

Korelasyon, Korelasyon Türleri ve Regresyon

Korelasyon, Korelasyon Türleri ve Regresyon Korelasyon, Korelasyon Türleri ve Regresyon İçerik Korelasyon Korelasyon Türleri Korelasyon Katsayısı Regresyon KORELASYON Korelasyon iki ya da daha fazla değişken arasındaki doğrusal ilişkiyi gösterir.

Detaylı

TANIMLAYICI İSTATİSTİKLER

TANIMLAYICI İSTATİSTİKLER TANIMLAYICI İSTATİSTİKLER Tanımlayıcı İstatistikler ve Grafikle Gösterim Grafik ve bir ölçüde tablolar değişkenlerin görsel bir özetini verirler. İdeal olarak burada değişkenlerin merkezi (ortalama) değerlerinin

Detaylı

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME YZM 317 YAPAY ZEKA DERS#10: KÜMELEME Sınıflandırma (Classification) Eğiticili (supervised) sınıflandırma: Sınıflandırma: Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğunu bilinir Eğiticisiz (unsupervised)

Detaylı

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ 127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ Veri Madenciliği : Bir sistemin veri madenciliği sistemi olabilmesi

Detaylı

Ö Z G E Ç M İ Ş. 1. Adı Soyadı: Mustafa GÖÇKEN. 2. Doğum Tarihi: 12 Haziran 1976. 3. Unvanı: Yrd. Doç. Dr. 4. Öğrenim Durumu: Ph.D.

Ö Z G E Ç M İ Ş. 1. Adı Soyadı: Mustafa GÖÇKEN. 2. Doğum Tarihi: 12 Haziran 1976. 3. Unvanı: Yrd. Doç. Dr. 4. Öğrenim Durumu: Ph.D. Ö Z G E Ç M İ Ş 1. Adı Soyadı: Mustafa GÖÇKEN 2. Doğum Tarihi: 12 Haziran 1976 3. Unvanı: Yrd. Doç. Dr. 4. Öğrenim Durumu: Ph.D. Derece Alan Üniversite Yıl Lisans Endüstri Mühendisliği Çukurova Üniversitesi

Detaylı

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı Veri Madenciliği, örüntü tanıma, istatistik ve matematiksel yöntemlerin kullanımıyla devasa miktardaki güncel ya da geçmiş veri içerisinden ilgi çekici ( önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel

Detaylı

BİYOİSTATİSTİK Sağlık Alanına Özel İstatistiksel Yöntemler Dr. Öğr. Üyesi Aslı SUNER KARAKÜLAH

BİYOİSTATİSTİK Sağlık Alanına Özel İstatistiksel Yöntemler Dr. Öğr. Üyesi Aslı SUNER KARAKÜLAH BİYOİSTATİSTİK Sağlık Alanına Özel İstatistiksel Yöntemler Dr. Öğr. Üyesi Aslı SUNER KARAKÜLAH Ege Üniversitesi, Tıp Fakültesi, Biyoistatistik ve Tıbbi Bilişim AD. Web: www.biyoistatistik.med.ege.edu.tr

Detaylı

doğrudur? Veya test, sağlıklı dediği zaman hangi olasılıkla doğrudur? Bu soruların yanıtları

doğrudur? Veya test, sağlıklı dediği zaman hangi olasılıkla doğrudur? Bu soruların yanıtları DÖNEM III HALK SAĞLIĞI-ADLİ TIP-BİYOİSTATİSTİK-TIP TARİHİ VE ETİK Ders Kurulu Başkanı : Prof. Dr. Günay SAKA TANI TESTLERİ (30.04.2014 Çrş. Y. ÇELİK) Duyarlılık (Sensitivity) ve Belirleyicilik (Specificity)

Detaylı

Tedarik Zinciri Yönetiminde Yapay Zeka Teknikler

Tedarik Zinciri Yönetiminde Yapay Zeka Teknikler Tedarik Zinciri Yönetiminde Yapay Zeka Teknikler Doç.Dr.Mehmet Hakan Satman mhsatman@istanbul.edu.tr İstanbul Üniversitesi 2014.10.22 Doç.Dr.Mehmet Hakan Satmanmhsatman@istanbul.edu.tr Tedarik Zinciri

Detaylı

Çok fazla bilgiden gizli kalmış örüntüleri ortaya çıkarma sürecine Veri Madenciliği denir.

Çok fazla bilgiden gizli kalmış örüntüleri ortaya çıkarma sürecine Veri Madenciliği denir. Veri Madenciliği Çok fazla bilgiden gizli kalmış örüntüleri ortaya çıkarma sürecine Veri Madenciliği denir. istatistik + makine öğrenmesi + yapay zeka = veri madenciliği Veri madenciliği süreçleri CRISP-DM

Detaylı

TANI TESTLERİNİN İSTATİSTİKSEL DEĞERLENDİRİLMESİ

TANI TESTLERİNİN İSTATİSTİKSEL DEĞERLENDİRİLMESİ TANI TESTLERİNİN İSTATİSTİKSEL DEĞERLENDİRİLMESİ İÇERİK Tanı testi Altın Standart Test Tanı Testi ile Altın Standart Testin Karşılaştırması İstatistiksel Değerlendirme Duyarlık, Seçicilik,Yanlış Negatif

Detaylı

OSPF PROTOKOLÜNÜ KULLANAN ROUTER LARIN MALİYET BİLGİSİNİN BULANIK MANTIKLA BELİRLENMESİ

OSPF PROTOKOLÜNÜ KULLANAN ROUTER LARIN MALİYET BİLGİSİNİN BULANIK MANTIKLA BELİRLENMESİ OSPF PROTOKOLÜNÜ KULLANAN ROUTER LARIN MALİYET BİLGİSİNİN BULANIK MANTIKLA BELİRLENMESİ Resul KARA Elektronik ve Bilgisayar Eğitimi Bölümü Teknik Eğitim Fakültesi Abant İzzet Baysal Üniversitesi, 81100,

Detaylı

Olgu-kontrol araştırmalarının analizi ve değerlendirilmesi. Raika Durusoy

Olgu-kontrol araştırmalarının analizi ve değerlendirilmesi. Raika Durusoy Olgu-kontrol araştırmalarının analizi ve değerlendirilmesi Raika Durusoy 1 Olgu-kontrol araştırmaları Belli bir hastalığı olan ( olgu ) ve olmayan ( kontrol ) bireyler belirlenir Her iki grubun bir etkene

Detaylı

CBS ve Coğrafi Hesaplama

CBS ve Coğrafi Hesaplama Yıldız Teknik Üniversitesi CBS ve Coğrafi Hesaplama 2. Bölüm Yrd. Doç. Dr. Alper ŞEN Harita Mühendisliği Bölümü Kartografya Anabilim Dalı web: http://www.yarbis.yildiz.edu.tr/alpersen/ E mail: alpersen@yildiz.edu.tr

Detaylı

RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI. Yrd. Doç. Dr. Emre ATILGAN

RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI. Yrd. Doç. Dr. Emre ATILGAN RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI Yrd. Doç. Dr. Emre ATILGAN 1 RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI Olasılığa ilişkin olayların çoğunluğunda, deneme sonuçlarının bir veya birkaç yönden incelenmesi

Detaylı

BÖLÜM 5 MERKEZİ EĞİLİM ÖLÇÜLERİ

BÖLÜM 5 MERKEZİ EĞİLİM ÖLÇÜLERİ 1 BÖLÜM 5 MERKEZİ EĞİLİM ÖLÇÜLERİ Gözlenen belli bir özelliği, bu özelliğe ilişkin ölçme sonuçlarını yani verileri kullanarak betimleme, istatistiksel işlemlerin bir boyutunu oluşturmaktadır. Temel sayma

Detaylı

ÖZGEÇMİŞ. Doç Doçent Doktor Bilgisayar Mühendisliği GAÜ 2010- Yrd. Doç Doç. Doktor Bilgisayar Mühendisliği GAÜ 1999-2010

ÖZGEÇMİŞ. Doç Doçent Doktor Bilgisayar Mühendisliği GAÜ 2010- Yrd. Doç Doç. Doktor Bilgisayar Mühendisliği GAÜ 1999-2010 ÖZGEÇMİŞ 1. Adı Soyadı: Ali Haydar 2. Doğum Tarihi: 14 Mayıs 1969 3. Unvanı: Doçent Doktor 4. Öğrenim Durumu: Derece Alan Üniversite Yıl Lisans Elektrik-Elektronik Müh. Orta Doğu Teknik Üniversitesi 1991

Detaylı

Makine Öğrenmesi 2. hafta

Makine Öğrenmesi 2. hafta Makine Öğrenmesi 2. hafta Uzaklığa dayalı gruplandırma K-means kümeleme K-NN sınıflayıcı 1 Uzaklığa dayalı gruplandırma Makine öğrenmesinde amaç birbirine en çok benzeyen veri noktalarını aynı grup içerisinde

Detaylı

SA Ğ KALIM ANAL Ġ ZLER Ġ

SA Ğ KALIM ANAL Ġ ZLER Ġ SAĞKALIM ANALĠZLERĠ Sağkalım Analizleri Sağkalım verilerini analiz etmek üzere kullanılan istatistiksel yöntemlerdir. Sağkalım verileri, yanıt değişkeni bir olay meydana gelene kadar geçen süre olan verilerdir.

Detaylı

VERI TABANLARıNDA BILGI KEŞFI

VERI TABANLARıNDA BILGI KEŞFI 1 VERİ MADENCİLİĞİ VERI TABANLARıNDA BILGI KEŞFI Veri Tabanlarında Bilgi Keşfi, veriden faydalı bilginin keşfedilmesi sürecinin tamamına atıfta bulunmakta ve veri madenciliği bu sürecin bir adımına karşılık

Detaylı

ÖZGEÇMİŞ. 1. Adı Soyadı : Olcay Taner Yıldız. 2. Doğum Tarihi : 15.05.1976. 3. Unvanı : Doç. Dr. 4. Öğrenim Durumu :

ÖZGEÇMİŞ. 1. Adı Soyadı : Olcay Taner Yıldız. 2. Doğum Tarihi : 15.05.1976. 3. Unvanı : Doç. Dr. 4. Öğrenim Durumu : ÖZGEÇMİŞ 1. Adı Soyadı : Olcay Taner Yıldız 2. Doğum Tarihi : 15.05.1976 3. Unvanı : Doç. Dr. 4. Öğrenim Durumu : Derece Alan Üniversite Yıl Lisans Bilgisayar Mühendisliği Boğaziçi Üniversitesi 1997 Y.

Detaylı

Eğiticili (supervised) öğrenme: Sınıflandırma (classification) Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğu bilinir

Eğiticili (supervised) öğrenme: Sınıflandırma (classification) Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğu bilinir Eğiticili (supervised) öğrenme: Sınıflandırma (classification) Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğu bilinir Eğiticisiz (unsupervised) öğrenme: Kümeleme (clustering) Hangi nesnenin hangi

Detaylı

Örnek. Aşağıdaki veri setlerindeki X ve Y veri çiftlerini kullanarak herbir durumda X=1,5 için Y nin hangi değerleri alacağını hesaplayınız.

Örnek. Aşağıdaki veri setlerindeki X ve Y veri çiftlerini kullanarak herbir durumda X=1,5 için Y nin hangi değerleri alacağını hesaplayınız. Örnek Aşağıdaki veri setlerindeki X ve Y veri çiftlerini kullanarak herbir durumda X=1,5 için Y nin hangi değerleri alacağını hesaplayınız. i. ii. X 1 2 3 4 1 2 3 4 Y 2 3 4 5 4 3 2 1 Örnek Aşağıdaki veri

Detaylı

Hipotez Testlerine Giriş. Hipotez Testlerine Giriş

Hipotez Testlerine Giriş. Hipotez Testlerine Giriş Hipotez Testlerine Giriş Hipotez Testlerine Giriş Hipotez Testlerine Giriş Gözlem ya da deneme sonucu elde edilmiş sonuçların, raslantıya bağlı olup olmadığının incelenmesinde kullanılan istatistiksel

Detaylı

3 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI

3 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI ÖNSÖZ İÇİNDEKİLER III Bölüm 1 İSTATİSTİK ve SAYISAL BİLGİ 11 1.1 İstatistik ve Önemi 12 1.2 İstatistikte Temel Kavramlar 14 1.3 İstatistiğin Amacı 15 1.4 Veri Türleri 15 1.5 Veri Ölçüm Düzeyleri 16 1.6

Detaylı

Özörgütlemeli Öğrenme (SOM) A. Cumhur KINACI

Özörgütlemeli Öğrenme (SOM) A. Cumhur KINACI Özörgütlemeli Öğrenme (SOM) A. Cumhur KINACI Öğrenme Türleri Eğiticili Öğrenme Eğiticisiz Öğrenme: Ağın verilerin sınıflandırmasını dışarıdan yardım almadan kendi başına yapmasıdır. Bunun olabilmesi için

Detaylı

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir Kümeleme Analizi: Temel Kavramlar ve Algoritmalar Kümeleme Analizi Nedir? Her biri bir dizi öznitelik ile, veri noktalarının bir kümesi ve noktalar arasındaki benzerliği ölçen bir benzerlik ölçümü verilmiş

Detaylı

Türkçe Dokümanlar Ġçin Yazar Tanıma

Türkçe Dokümanlar Ġçin Yazar Tanıma Türkçe Dokümanlar Ġçin Yazar Tanıma Özcan KOLYĠĞĠT, Rıfat AġLIYAN, Korhan GÜNEL Adnan Menderes Üniversitesi, Matematik Bölümü Bölümü, Aydın okolyigit@gmail.com, rasliyan@adu.edu.tr, kgunel@adu.edu.tr Özet:

Detaylı

YABANCI DİL EĞİTİMİ VEREN ÖZEL BİR EĞİTİM KURUMUNDAKİ ÖĞRENCİLERİN BEKLENTİLERİNİN ARAŞTIRILMASI. Sibel SELİM 1 Efe SARIBAY 2

YABANCI DİL EĞİTİMİ VEREN ÖZEL BİR EĞİTİM KURUMUNDAKİ ÖĞRENCİLERİN BEKLENTİLERİNİN ARAŞTIRILMASI. Sibel SELİM 1 Efe SARIBAY 2 Dokuz Eylül Üniversitesi Sosyal Bilimler Enstitüsü Dergisi Cilt 5, Sayı:2, 2003 YABANCI DİL EĞİTİMİ VEREN ÖZEL BİR EĞİTİM KURUMUNDAKİ ÖĞRENCİLERİN BEKLENTİLERİNİN ARAŞTIRILMASI Sibel SELİM 1 Efe SARIBAY

Detaylı

REGRESYON ANALİZİ VE UYGULAMA. Yrd. Doç. Dr. Hidayet Takcı

REGRESYON ANALİZİ VE UYGULAMA. Yrd. Doç. Dr. Hidayet Takcı REGRESYON ANALİZİ VE UYGULAMA Yrd. Doç. Dr. Hidayet Takcı htakci@cumhuriyet.edu.tr Sunum içeriği Bu sunumda; Lojistik regresyon konu anlatımı Basit doğrusal regresyon problem çözümleme Excel yardımıyla

Detaylı

YAPAY SİNİR AĞI KULLANARAK DEPREM EĞİLİMİNİN KESTİRİMİ. Umut FIRAT

YAPAY SİNİR AĞI KULLANARAK DEPREM EĞİLİMİNİN KESTİRİMİ. Umut FIRAT YAPAY SİNİR AĞI KULLANARAK DEPREM EĞİLİMİNİN KESTİRİMİ Umut FIRAT ufirat@yahoo.com Öz: Depremler yeryüzünde en çok yıkıma neden olan doğal afetlerdir. Bu durum, depremlerin önceden tahmin edilmesi fikrini

Detaylı

Araştırma Yöntem ve Teknikleri

Araştırma Yöntem ve Teknikleri Araştırma Yöntem ve Teknikleri Araştırma Sürecinde Kullanılan Terimler Araştırma Sürecinde Kullanılan Terimler Değişken (Variable) Hipotez veya Denence (Hypothesis) Sayıltı veya Faraziye (Assumption) Sınırlılık

Detaylı

İçindekiler. Ön Söz... xiii

İçindekiler. Ön Söz... xiii İçindekiler Ön Söz.................................................... xiii Bölüm 1 İstatistiğe Giriş....................................... 1 1.1 Giriş......................................................1

Detaylı

YZM 5257 YAPAY ZEKA VE UZMAN SİSTEMLER DERS#6: GENETİK ALGORİTMALAR

YZM 5257 YAPAY ZEKA VE UZMAN SİSTEMLER DERS#6: GENETİK ALGORİTMALAR YZM 5257 YAPAY ZEKA VE UZMAN SİSTEMLER DERS#6: GENETİK ALGORİTMALAR Sınıflandırma Yöntemleri: Karar Ağaçları (Decision Trees) Örnek Tabanlı Yöntemler (Instance Based Methods): k en yakın komşu (k nearest

Detaylı

UYGULAMA 1 SPSS E GİRİŞ. SPSS; File, Edit, View, Data, Transform, Analyze, Graphs, Utilities, Window, Help adlı 10 adet program menüsü içermektedir.

UYGULAMA 1 SPSS E GİRİŞ. SPSS; File, Edit, View, Data, Transform, Analyze, Graphs, Utilities, Window, Help adlı 10 adet program menüsü içermektedir. 1 UYGULAMA 1 SPSS E GİRİŞ SPSS; File, Edit, View, Data, Transform, Analyze, Graphs, Utilities, Window, Help adlı 10 adet program menüsü içermektedir. Bu menülerin işlevleri ve alt menüleri ile komutları

Detaylı

Akış YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

Akış YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ Akış Makine Öğrenmesi nedir? Günlük Hayatımızdaki Uygulamaları Verilerin Sayısallaştırılması Özellik Belirleme Özellik Seçim Metotları Bilgi Kazancı (Informaiton Gain-IG) Sinyalin Gürültüye Oranı: (S2N

Detaylı

KIRIKKALE ÜNİVERSİTESİ FEN-EDEBIYAT FAKÜLTESİ İSTATİSTİK BÖLÜMÜ LİSANS PROGRAMI

KIRIKKALE ÜNİVERSİTESİ FEN-EDEBIYAT FAKÜLTESİ İSTATİSTİK BÖLÜMÜ LİSANS PROGRAMI KIRIKKALE ÜNİVERSİTESİ FEN-EDEBIYAT FAKÜLTESİ İSTATİSTİK BÖLÜMÜ LİSANS PROGRAMI Kırıkkale Üniversitesi Fen-Edebiyat Fakültesi İstatistik Bölümü Lisans Programı, Kırıkkale Üniversitesi Önlisans ve Lisans

Detaylı

İÇİNDEKİLER ÖN SÖZ...

İÇİNDEKİLER ÖN SÖZ... İÇİNDEKİLER ÖN SÖZ... v GİRİŞ... 1 1. İSTATİSTİK İN TARİHÇESİ... 1 2. İSTATİSTİK NEDİR?... 3 3. SAYISAL BİLGİDEN ANLAM ÇIKARILMASI... 4 4. BELİRSİZLİĞİN ELE ALINMASI... 4 5. ÖRNEKLEME... 5 6. İLİŞKİLERİN

Detaylı

MEÜ. SAĞLIK BĠLĠMLERĠ ENSTĠTÜSÜ DERS TANIMI FORMU

MEÜ. SAĞLIK BĠLĠMLERĠ ENSTĠTÜSÜ DERS TANIMI FORMU MEÜ. SAĞLIK BĠLĠMLERĠ ENSTĠTÜSÜ DERS TANIMI FORMU Dersin Adı-Kodu: BİS 601 Örnek Genişliği ve Güç Programın Adı: Biyoistatistik Dersin düzeyi Doktora Ders saatleri ve Teori Uyg. Lab. Proje/Alan Çalışması

Detaylı

MONTE CARLO BENZETİMİ

MONTE CARLO BENZETİMİ MONTE CARLO BENZETİMİ U(0,1) rassal değişkenler kullanılarak (zamanın önemli bir rolü olmadığı) stokastik ya da deterministik problemlerin çözümünde kullanılan bir tekniktir. Monte Carlo simülasyonu, genellikle

Detaylı

Kredi Onayı İçin Bir Sınıflandırma Algoritması Önerisi A Classification Algorithm Advice for Credit Approval

Kredi Onayı İçin Bir Sınıflandırma Algoritması Önerisi A Classification Algorithm Advice for Credit Approval Kredi Onayı İçin Bir Sınıflandırma Algoritması Önerisi A Classification Algorithm Advice for Credit Approval İsmail Haberal Bilgisayar Mühendisliği Bölümü Başkent Üniversitesi ihaberal@baskent.edu.tr Umut

Detaylı

BÖLÜM 13 HİPOTEZ TESTİ

BÖLÜM 13 HİPOTEZ TESTİ 1 BÖLÜM 13 HİPOTEZ TESTİ Bilimsel yöntem aşamalarıyla tanımlanmış sistematik bir bilgi üretme biçimidir. Bilimsel yöntemin aşamaları aşağıdaki gibi sıralanabilmektedir (Karasar, 2012): 1. Bir problemin

Detaylı

İÇİNDEKİLER 1. GİRİŞ...

İÇİNDEKİLER 1. GİRİŞ... İÇİNDEKİLER 1. GİRİŞ... 1 1.1. Regresyon Analizi... 1 1.2. Uygulama Alanları ve Veri Setleri... 2 1.3. Regresyon Analizinde Adımlar... 3 1.3.1. Problemin İfadesi... 3 1.3.2. Konu ile İlgili Potansiyel

Detaylı

Kullanılacak İstatistikleri Belirleme Ölçütleri. Değişkenin Ölçek Türü ya da Yapısı

Kullanılacak İstatistikleri Belirleme Ölçütleri. Değişkenin Ölçek Türü ya da Yapısı ARAŞTIRMA MODELLİLERİNDE KULLANILACAK İSTATİSTİKLERİ BELİRLEME ÖLÇÜTLERİ Parametrik mi Parametrik Olmayan mı? Kullanılacak İstatistikleri Belirleme Ölçütleri Değişken Sayısı Tek değişkenli (X) İki değişkenli

Detaylı

GENETİK TANI YÖNTEMLERİ. Prof.Dr.Mehmet Alikaşifoğlu

GENETİK TANI YÖNTEMLERİ. Prof.Dr.Mehmet Alikaşifoğlu GENETİK TANI YÖNTEMLERİ Prof.Dr.Mehmet Alikaşifoğlu S Genetik Tanı Yöntemleri S Sitogenetik Tanı Yöntemleri S Moleküler Sitogenetik Tanı Yöntemleri S Moleküler Genetik Tanı Yöntemleri Sitogenetik Tanı

Detaylı

İstatistik ve Olasılık

İstatistik ve Olasılık İstatistik ve Olasılık KORELASYON ve REGRESYON ANALİZİ Doç. Dr. İrfan KAYMAZ Tanım Bir değişkenin değerinin diğer değişkendeki veya değişkenlerdeki değişimlere bağlı olarak nasıl etkilendiğinin istatistiksel

Detaylı

Okut. Yüksel YURTAY. İletişim : (264) Sayısal Analiz. Giriş.

Okut. Yüksel YURTAY. İletişim :  (264) Sayısal Analiz. Giriş. Okut. Yüksel YURTAY İletişim : Sayısal Analiz yyurtay@sakarya.edu.tr www.cs.sakarya.edu.tr/yyurtay (264) 295 58 99 Giriş 1 Amaç : Mühendislik problemlerinin bilgisayar ortamında çözümünü mümkün kılacak

Detaylı

Bil101 Bilgisayar Yazılımı I. M. Erdem ÇORAPÇIOĞLU Bilgisayar Yüksek Mühendisi

Bil101 Bilgisayar Yazılımı I. M. Erdem ÇORAPÇIOĞLU Bilgisayar Yüksek Mühendisi Bil101 Bilgisayar Yazılımı I Bilgisayar Yüksek Mühendisi Kullanıcıdan aldığı veri ya da bilgilerle kullanıcının isteği doğrultusunda işlem ve karşılaştırmalar yapabilen, veri ya da bilgileri sabit disk,

Detaylı

Yüz Tanımaya Dayalı Uygulamalar. (Özet)

Yüz Tanımaya Dayalı Uygulamalar. (Özet) 4 Yüz Tanımaya Dayalı Uygulamalar (Özet) Günümüzde, teknolojinin gelişmesi ile yüz tanımaya dayalı bir çok yöntem artık uygulama alanı bulabilmekte ve gittikçe de önem kazanmaktadır. Bir çok farklı uygulama

Detaylı

Örnekleme Yöntemleri

Örnekleme Yöntemleri Örnekleme Yöntemleri Evren & Örneklem (Fraenkel & Wallen, 1990) Evren & Örneklem 2 Evren Evren, araştırma sonuçlarının genelleneceği (geçerli olacağı) büyük grup. Hedef evren, araştırmacının ulaşmak istediği,

Detaylı

AVRASYA ÜNİVERSİTESİ

AVRASYA ÜNİVERSİTESİ Ders Tanıtım Formu Dersin Adı Öğretim Dili Biyoinformatik Türkçe Dersin Verildiği Düzey Ön Lisans () Lisans (X) Yüksek Lisans( ) Doktora( ) Eğitim Öğretim Sistemi Örgün Öğretim (X) Uzaktan Öğretim( ) Diğer

Detaylı

Temel ve Uygulamalı Araştırmalar için Araştırma Süreci

Temel ve Uygulamalı Araştırmalar için Araştırma Süreci BÖLÜM 8 ÖRNEKLEME Temel ve Uygulamalı Araştırmalar için Araştırma Süreci 1.Gözlem Genel araştırma alanı 3.Sorunun Belirlenmesi Sorun taslağının hazırlanması 4.Kuramsal Çatı Değişkenlerin açıkça saptanması

Detaylı

KAHKAHA TANIMA İÇİN RASSAL ORMANLAR

KAHKAHA TANIMA İÇİN RASSAL ORMANLAR KAHKAHA TANIMA İÇİN RASSAL ORMANLAR Heysem Kaya, A. Mehdi Erçetin, A. Ali Salah, S. Fikret Gürgen Bilgisayar Mühendisliği Bölümü Boğaziçi Üniversitesi / Istanbul Akademik Bilişim'14, Mersin, 05.02.2014

Detaylı

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37 İÇİNDEKİLER BÖLÜM 1 Değişkenler ve Grafikler 1 İstatistik 1 Yığın ve Örnek; Tümevarımcı ve Betimleyici İstatistik 1 Değişkenler: Kesikli ve Sürekli 1 Verilerin Yuvarlanması Bilimsel Gösterim Anlamlı Rakamlar

Detaylı

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ - 150110046 İÇERİK Uygulama ve uygulamaya ilişkin temel kavramların tanıtımı Uygulamanın yapısı Ön yüz Veritabanı Web Servisler K-Means Algoritması ile kategori

Detaylı

BİYOİSTATİSTİK Örnekleme ve Örnekleme Yöntemleri Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

BİYOİSTATİSTİK Örnekleme ve Örnekleme Yöntemleri Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH BİYOİSTATİSTİK Örnekleme ve Örnekleme Yöntemleri Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH Ege Üniversitesi, Tıp Fakültesi, Biyoistatistik ve Tıbbi Bilişim AD. Web: www.biyoistatistik.med.ege.edu.tr 1 Araştırmalarda

Detaylı