127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

Benzer belgeler
VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Twoing Algoritması ile Sınıflandırma : Kalp Hastalığı Uygulaması

Twoing Algoritması ile Sınıflandırma : Kalp Hastalığı Uygulaması

Web Madenciliği (Web Mining)

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

Makine Öğrenmesi 3. hafta

Web Madenciliği (Web Mining)

Veri Madenciliği Karar Ağacı Oluşturma

YZM ALGORİTMA ANALİZİ VE TASARIM DERS#9: AÇGÖZLÜ ALGORİTMALAR

PAPATYA YAYINCILIK EĞİTİM Bilgisayar Sis. San. ve Tic. A.Ş. Veri Madenciliği Yöntemleri Dr. Yalçın ÖZKAN -II-

bitık MOBİL TİCARET UYGULAMASI ABDULLAH ÇİÇEKCİ

Dosya Sıkıştırma (File Compression) Kütük Organizasyonu 1

Web Madenciliği (Web Mining)

Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri. Mustafa Kemal Üniversitesi

Fonksiyon Optimizasyonunda Genetik Algoritmalar

EEM211 ELEKTRİK DEVRELERİ-I

Algoritmalar. Arama Problemi ve Analizi. Bahar 2016 Doç. Dr. Suat Özdemir 1

Örneklem. Yöntemleri FBED511 Eğitim Bilimlerinde Temel Araştırma Yöntemleri 1. Evren & Örneklem. Evren. Örneklem ve örnekleme

Veri ve Metin Madenciliği

Veri ve Metin Madenciliği. Zehra

Örnekleme Yöntemleri

F(A, N, K) // A dizi; N, K integer if N<0 then return K; if A[N]>K then K = A[N]; return F(A, N-1, K);

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

GENETİK ALGORİTMA ÖZNUR CENGİZ HİLAL KOCA

Birliktelik Kuralları Analizi. Yard. Doç. Dr. Derya BİRANT Prof. Dr. Alp KUT

Algoritmalar. Sıralama Problemi ve Analizi. Bahar 2017 Doç. Dr. Suat Özdemir 1

Genel Graf Üzerinde Mutlak 1-merkez

tree) nedir? Karar Ağacı (Decision Decisiontree

2. Oracle Data Miner İle Örnek Bir Veri Madenciliği Çalışması

HEPATİTLER (SARILIK HASTALIĞI) VE KRONİK BÖBREK HASTALIKLARI VE

KABA KÜME TEORİSİ (Rough Set Theory) Dr. Sedat TELÇEKEN

Karar Ağacı Öğrenmesi(Decision Tree Learning)

VERİ YAPILARI VE PROGRAMLAMA

Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ. Ders 1- Yapay Zekâya Giriş. Erhan AKDOĞAN, Ph.D.

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

Boosting. Birol Yüceoğlu Migros T.A.Ş.

VERİLERİN SINIFLANDIRILMASI

Mesleki Terminoloji II Veri Madenciliği

K En Yakın Komşu Methodu (KNearest Neighborhood)

MAK4061 BİLGİSAYAR DESTEKLİ TASARIM

BIP116-H14-1 BTP104-H014-1

METASEZGİSEL YÖNTEMLER. Genetik Algoritmalar

ELN1002 BİLGİSAYAR PROGRAMLAMA 2

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

Gözetimli & Gözetimsiz Öğrenme

Algoritmalar. Heap Sort. Bahar 2017 Doç. Dr. Suat Özdemir 1

Apriori Algoritması. Konu İçeriği. Giriş. Tarihçesi. Apriori Nedir? Örnekler. Algoritma. Açıklama. Weka İle Kullanımı. Kaynakça.

KARAR TEORİSİ. Özlem AYDIN. Trakya Üniversitesi Bilgisayar Mühendisliği Bölümü

ICATT ÇEVİRİ UYGULAMASI SİSTEM MİMARİSİ VE VERİTABANI TASARIMI

Makine Öğrenmesi 2. hafta

10.Hafta Minimum kapsayan ağaçlar Minimum spanning trees (MST)

b) Algoritmanızın en kötü durumda işlem zamanını asimptotik olarak bulunuz

Algoritma Geliştirme ve Veri Yapıları 3 Veri Yapıları. Mustafa Kemal Üniversitesi

BLM-111 PROGRAMLAMA DİLLERİ I. Ders-11 Karakter Diziler. Yrd. Doç. Dr. Ümit ATİLA

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

BMB204. Veri Yapıları Ders 9. B+ Ağacı, Hash, Heap. Erdinç Uzun NKÜ Çorlu Mühendislik Fakültesi Bilgisayar Mühendisliği Bölümü

Eğiticili (supervised) öğrenme: Sınıflandırma (classification) Sınıf sayısı ve bir grup örneğin hangi sınıfa ait olduğu bilinir

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

YAPILAR BİRLİKLER SAYMA SABİTLERİ/KÜMELERİ. 3. Hafta

DİZİLER. Bu ünitede yapılan örnekler Visual Studio 2010 programındaki Visual Basic programlama diliyle çözülmüştür.

Elbistan Meslek Yüksek Okulu GÜZ Yarıyılı Ara Öğr. Gör. Murat KEÇECĠOĞLU

Türkçe Dokümanlar Ġçin Yazar Tanıma

Yıldız Teknik Üniversitesi Fen Bilimleri Enstitüsü Bilgisayar Mühendisliği Bölümü. Şekil Tanıma Final Projesi. Selçuk BAŞAK

BKİ farkı Standart Sapması (kg/m 2 ) A B BKİ farkı Ortalaması (kg/m 2 )

AKILLI TATIL PLANLAMA SISTEMI

Algoritmalar. Doğrusal Zamanda Sıralama. Bahar 2017 Doç. Dr. Suat Özdemir 1

Uzaktan Algılama Uygulamaları

TEMEL BİLGİSAYAR BİLİMLERİ. Programcılık, problem çözme ve algoritma oluşturma

Zeki Optimizasyon Teknikleri

KARAR AĞAÇLARI SÜMEYYE ÖZKAN BAHAR BAKAR İZEL KOLCU

Oluşturulan evren listesinden örnekleme birimlerinin seçkisiz olarak çekilmesidir

Veri Madenciliği Yöntemleri. Dr. Yalçın ÖZKAN

Kuyruk Sistemlerinin Simülasyonu

VERİ MADENCİLİĞİ (Birliktelik Kuralları) Yrd.Doç.Dr. Kadriye ERGÜN

İki-Kuvvet Elemanları Basit (2 Boyutlu) Kafesler Düğüm Noktaları Metodu ile Analiz Sıfır-Kuvvet Elemanları Kesme Metodu ile Analiz

İĞİ ğ ş. ğ ş ğ ğ ğ Ş İ. ş ş. ş ğ ğ. ş ş ğ ş ş ş. ğ ş ş İ İ İ. ş ş

Ç Ü

İ Ö Ç İ İ İ

ğ

ö Ö ğ

Ğ ç ğ ç ç ğ ç ğ ç ç ğ ç ğ ğ ç ç ğ ç ç ğ ç ç ç ğ ç ç ğ ç ç ç İ ğ ğ ğ ç ğ ğ ç ğ ğ ğ ğ ğ ç ç ç ç ğ ç ğ ç ç ğ ğ ç ç ç ğ ğ ç ğ ğ ç ç ç ç İ ğ ç ğ ç ğ ç ç ğ

ö ü ü ö ö ü ö ü ü ğ ö ç ü Ç ğ ç ç ö ü ç ü ö Ş ğ üç ğ ç ü ö ç ç ç ç ğ ç ü ü ç ö ç ü ç ü ö ğ ç ç ö ç ğ ğ ç ç ö ç ö ü ğ ü Ş Ü Ü ö

Ü Ö Ü Ğ Ğ Ğ Ğ

Ğ Ğ Ö

Ş Ğ ş Ğ İ Ğ İ ş ş Ü Ü Ş Ü İ ş ş ş

Ğ Ö Ğ

ğ Ü ğ ğ ğ ğ ğ ğ ğ İ ğ ğ ğ İ ğ ğ ğ ğ ğ ğ

Ğ Ö Ö Ö Ö Ö Ö Ö Ö

Ş Ş Ö Ö Ü Ö Ö»

ö Ç ş ş ö ç ç ş ş ö ö ö Ç ö ş ş ö

Ğ Ö

ı ı ıı Üİİİ Ü ı ı ı ı ı ı ü ı ü

Ğ Ğ Ü ş ç ş Ç ş ö ş ç ö Ö ş

Ü Ğ Ğ ç ç ç ö ö ö ö ç ç ç Ç Ş

Ü Ü Ğ Ü Ğ Ü «Ğ Ğ» Ü

Ü Ü»

Transkript:

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

Veri Madenciliği : Bir sistemin veri madenciliği sistemi olabilmesi için büyük miktarlarda veri ile çalışabilmesi, birleşik sorgulara cevap verebilir bir yapıda veri ve bilgi geri alma işlemlerini gerçekleştirebilmesi gerekmektedir. Sınıflandırma : Verilerin ortak özellikleri kullanılarak verileri sınıflandırmak mümkündür. Sınıflandırma bir öğrenme algoritmasına dayanır. Sınıflandırma, hangi sınıfa ait olduğu bilinmeyen bir kayıt için bir sınıf belirleme sürecidir.

Karar ağaçları ile sınıflandırma : Karar ağaçları akış şemalarına benzeyen yapılardır. Her bir nitelik bir düğüm tarafından temsil edilir. Dallar ve yapraklar ağaç yapısının elemanlarıdır. En son yapı yaprak, en üst yapı kök ve bunların arasında kalan yapılar ise dal olarak isimlendirilir. Tipik bir karar ağacı örneği şekil 2 de gösterilmektedir.

Cart ile sınıflandırma (Sınıflandırma ve Regresyon Ağaçları) CART karar ağacı, her bir karar düğümünden itibaren ağacın iki dala ayrılması esasına dayanır. CART algoritmasında, bir düğümde belirli bir kriter uygulanarak bölümleme işlemi gerçekleştirilir. Bunun için önce tüm niteliklerin var olduğu değerler göz önüne alınır ve tüm eşleşmelerden sonra iki bölünme elde edilir. Bu bölünmelere üzerinde seçme işlemi uygulanır. Karar kuralları oluşturmak Eğitim kümesine bağlı olarak elde edilen karar ağacından yararlanarak karar kuralları oluşturulabilir. Karar kuralları aynen programlama dillerindeki IF-THEN-ELSE yapılarına benzer.

Sağlık Alanında Veri Madenciliği Günümüzde tıbbın gelişmesi ve insanların ortalama yaşam sürelerinin uzaması beraberinde bazı sorunları da getirmiştir. Örneğin birçok insan, kalp hastalıkları, diyabet ve astım hastalıkları gibi kronik hastalıklarla yaşamak zorundadır. Bu hastalıkların hem tıbbi açıdan hem de hastane kaynak ve maliyetleri açısından ele alınarak doğru yönetilmesi gerekmektedir. Veri madenciliği yöntemleri kullanılarak bu sistemlerdeki gizli ve önemli bilgiler keşfedilmelidir. Keşfedilen bu bilgiler hem tıbbi araştırmalar hem de yönetim planları için değerlendirilmelidir.

Veri Setinin Seçilmesi Çeşitli veritabanları incelendikten sonra kalp hastalığı verileri için en uygun veri seti Makine Öğrenmesi ve Akıllı Sistemler Merkezi (http://archive.ics.uci.edu/ml/index.html) adresinde bulunmuştur. En uygun veri seti aranırken nitelik sayısı, örnek sayısı, daha önce kullanılıp kullanılmadığı gibi bilgiler göz önüne alınmıştır. Seçilen kalp hastalığı veri seti 13 adet nitelik ve 270 satır örnek içermektedir ve güvenilir bir karar kuralı oluşturmak için idealdir.

Tıbbi Veriler Üzerinde Twoing Algoritması İle Sınıflandırma Bir veri seti CART ile sınıflandırılırken iki yöntem kullanılabilir. Birincisi veri setini ikiye bölmek, ikincisi ise sınıf niteliğini ikiye bölmek. Bu uygulamada kalp hastalığını sınıflandırmak için veri setinin ilk 135 satırı eğitim kümesi için ayrılmıştır. Tablo 1 Uygulamada kullanılacak eğitim tablosu-adım 1 için (İlk 5 satır) Sıra Yaş Cinsiyet Göğüs ağrısı tipi Hareketsiz kan basıncı Serum kolestrol Açlık kan şekeri > 120 mg/dl Elektrokardiyografi dinlenme Maksimum kalp hızı Anjine bağlı egzersiz ST depresyonu ST eğimi Büyük damarlar Talasemi Sınıf 1 70 1 4 130 322 0 2 109 0 2,4 2 3 3 2 2 67 0 3 115 564 0 2 160 0 1,6 2 0 7 1 3 57 1 2 124 261 0 0 141 0 0,3 1 0 7 2 4 64 1 4 128 263 0 0 105 1 0,2 2 1 7 1 5 74 0 2 120 269 0 2 121 1 0,2 1 1 3 1

Adım 1 Adım 1.a: Aday Bölünmeler Twoing algoritmasını uygulamak için, niteliklerin her bir değeri için iki ayrı dizi oluşturulur. Burada s aday bölünmenin her bir satırını ifade etmektedir. Örneğin Yaş<=55 olarak alınırsa bu sol taraf dizisinin elemanı olacaktır. Geriye kalan Yaş>55 sağ taraf dizi elemanını oluşturur. İki diziden sol tarafta bulunanı t Sol, sağ tarafta yer alanı ise t Sağ dizisi olarak değerlendirilir. Tablo 2 Aday Bölünmeler 1 Yaş<=55 Yaş>55 14 Anjin=0 Anjin=1 2 Cinsiyet=1 Cinsiyet=0 15 ST Depresyonu<=2,1 ST Depresyonu>2,1 3 Göğüs Ağrısı Tipi=1 Göğüs Ağrısı Tipi {2,3,4} 16 ST Eğimi=1 ST Eğimi {2,3} 4 Göğüs Ağrısı Tipi=2 Göğüs Ağrısı Tipi {1,3,4} 17 ST Eğimi=2 ST Eğimi {1,3} 5 Göğüs Ağrısı Tipi=3 Göğüs Ağrısı Tipi {1,2,4} 18 ST Eğimi=3 ST Eğimi {1,2} 6 Göğüs Ağrısı Tipi=4 Göğüs Ağrısı Tipi {1,2,3} 19 Büyük Damarlar=0 Büyük Damarlar {1,2,3} 7 Kan Basıncı<=147 Kan Basıncı>147 20 Büyük Damarlar=1 Büyük Damarlar {0,2,3} 8 Kolestrol<=345 Kolestrol>345 21 Büyük Damarlar=2 Büyük Damarlar {0,1,3} 9 Açlık Kan Şekeri=0 Açlık Kan Şekeri=1 22 Büyük Damarlar=3 Büyük Damarlar {0,1,2} 10 Elektrokardiyografi=0 Elektrokardiyografi {1,2} 23 Talasemi=3 Talasemi {6,7} 11 Elektrokardiyografi=1 Elektrokardiyografi {0,2} 24 Talasemi=6 Talasemi {3,7} 12 Elektrokardiyografi=2 Elektrokardiyografi {0,1} 25 Talasemi=7 Talasemi {3,6} 13 Maksimum Kalp Hızı<=128 Maksimum Kalp Hızı>128

Adım 1.b: Sol Taraf Olasılıklarının Hesaplanması Tablo 3 Sol Taraf Olasılıkları (İlk 5 Satır) Aday Bölünme t Sol kayıt sayısı P Sol 1 sayısı 2 sayısı P(1 t Sol ) P(2 t Sol ) 1 64 0,474 42 22 0,656 0,344 2 89 0,659 38 51 0,427 0,573 3 9 0,067 7 2 0,778 0,222 4 23 0,17 19 4 0,826 0,174 5 34 0,252 27 7 0,794 0,206

Adım 1.c: Sağ Taraf Olasılıklarının Hesaplanması Tablo 4 Sağ Taraf Olasılıkları (İlk 5 Satır) Aday Bölünme t Sağ kayıt sayısı P Sağ 1 sayısı 2 sayısı P(1 t Sağ ) P(2 t Sağ ) 1 71 0,526 31 40 0,437 0,563 2 46 0,341 35 11 0,761 0,239 3 126 0,933 66 60 0,524 0,476 4 112 0,83 54 58 0,482 0,518 5 101 0,748 46 55 0,455 0,545

Adım 1.d: Uygunluk Ölçütünün Hesaplanması Φ(s t) = 2P P ğ P j t P j t ğ Tablo 5 : Her bir aday bölüm için Φ(s/t) değerleri (İlk 6 satır) Aday Bölünme PSol PSağ 2PSolPSağ Φ(s\t) 1 0,474 0,526 0,499 0,219 2 0,659 0,341 0,449 0,3 3 0,067 0,933 0,125 0,064 4 0,17 0,83 0,282 0,194 5 0,252 0,748 0,377 0,256 6 0,511 0,489 0,5 0,513

Adım 1.f : Karar Ağacı Şekil 3: Başlangıç bölünmesi ardından elde edilen karar ağacı.

4 Adım Sonunda Elde Edilen Karar Ağacı Şekil 4 - Başlangıç bölünmesi ardından elde edilen karar ağacı

Kural Tablosu Elde edilen karar ağacına uygun olarak aşağıdaki kural tablosu düzenlenebilir: Kural 1 : Eğer Göğüs Ağrısı Tipi=4 ise Sınıf=2 (Kalp Hastalığı Var) veya Sınıf =1 (Kalp Hastalığı Yok) Kural 2 : Eğer Göğüs Ağrısı Tipi =1 veya 2 veya 3 ise ve Eğer Göğüs Ağrısı Tipi=2 ise Sınıf=2 (Kalp Hastalığı Var) veya Sınıf=1 (Kalp Hastalığı Yok) Kural 3 : Eğer Göğüs Ağrısı Tipi=1 veya 3 ise ve Eğer Büyük Damarlar=0 ise Sınıf=2 (Kalp Hastalığı Var) veya Sınıf=1 (Kalp Hastalığı Yok) Kural 4 : Eğer Büyük Damarlar=1 veya 2 veya 3 ise ve Eğer ST Eğimi=2 ise Sınıf=2 (Kalp Hastalığı Var) veya Sınıf=1 (Kalp Hastalığı Yok) Kural 5 : Eğer Büyük Damarlar=1 veya 2 veya 3 ise ve Eğer ST Eğimi=1 veya 3 ise Sınıf=1 (Kalp Hastalığı Yok)

Sonuç ve Öneriler : Veri Madenciliği, sağlık ve tıp alanındaki büyük veritabanlarından değerli bilgileri ortaya çıkartarak, hem tıp açısından hem de hizmet kalitesinin artırılması açısından büyük katkılar sağlar. Bu çalışmada kalp hastalığı veri seti kullanılarak kalp hastalığı twoing algoritması ile sınıflandırılmış ve karar kuralları oluşturulmuştur. Yaş, cinsiyet, göğüs ağrıları, kalp atış hızı, kan şekeri, talasemi gibi niteliklerin kalp hastalığının belirtisi olup olmadığı araştırılmıştır. 135 satırdan oluşan örnekte oluşturulan karar kurallarına göre belirtilen niteliklerin kalp hastalığı belirtisi olup olmadığı sınıflandırılmıştır. Sınıflandırmaya göre göğüs ağrısı, büyük damarlar ve st eğimi gibi niteliklerin tiplerine göre kalp hastalığı belirtisi olduğu sonucu ortaya çıkmıştır. Büyük damarlar özelliği en büyük bilgi kazancını sağladığı için ağacın kökünde yer alacak özellik olarak seçilir. Bu özellik en ayırt edici özellik olarak bulunmuştur. Bundan sonraki yapılacak çalışmalarda aynı veri seti gini algoritması ile sınıflandırılıp karşılaştırma yapılabilir.