VERİ MADENCİLİĞİ YÖNTEMLERİ İLE DIABETES MELLITIUS HASTALIĞINA SEBEP OLAN FAKTÖRLERİN TESPİTİ Gizem Betül Şahin 1, Tuba Gökhan 2, Aydın Çetin 3 1 2 3 gb.sahin56@gmail.com, tubagokhan@gazi.edu.tr, acetin@gazi.edu.tr Özet: Diabetes Mellitus (Diyabet hastalığı-dm); pankreasın yeterli insülin üretememesi veya vücudun ürettiği insülini etkili bir şekilde kullanamaması sonucu oluşan kronik bir hastalıktır. Uzun sürede kalp damar hastalıkları, göz hastalıkları, böbrek hastalıkları gibi ciddi komplikasyonlar ortaya çıkarabilen bu hastalık, tedavi harcamalarının yüksekliği ve iş gücü kaybı nedeni ile hastaya sosyoekonomik yük getirmesinden dolayı diyabet önemli bir sağlık sorunudur. Diyabet, günümüzde yetişkinlerin yanı sıra küçük yaş gruplarında da sıklıkla ortaya çıkmaya başlamıştır. Bu durumda erken tanı birçok hastalıkta olduğu gibi diyabette de önem arz etmektedir. Tanı için idrar ve kanda çeşitli kimyasal testler yapılmaktadır. Bu çalışma kan testi ve kişiye ait fiziksel özellikler kullanarak veri madenciliği yöntemleri kullanılarak kişilerin diyabet hastası olup olmadıklarının belirlenmesi amacıyla gerçekleştirilmiştir. Yapılan bu çalışmada 392 kadın Dünya Sağlık Örgütü(WHO) kriterlerine göre test edilip veri seti haline getirilmiştir. Bu veri seti açık kaynak kodlu veri madenciliği yazılımlarından olan WEKA aracının farklı sınıflandırma algoritmaları karşılaştırılarak en iyi sonucu veren algoritma ile bu verilere göre diyabet hastası olup olmadıkları belirlenmiştir. Sonuç olarak elde edilen veriler, belirtilen değerlerin diyabetin tanısı konusunda kısmen yetersiz kalsa da azımsanmayacak derecede de önemli rol oynadığını göstermiştir. Anahtar sözcükler: Veri madenciliği, WEKA, Sınıflandırma Algoritmaları, Diyabet, Şeker hastalığı Abstract: Diabetes Mellitus (Diabetes Mellitus); Is a chronic disease in which the pancreas can not produce enough insulin or can not use the body's insulin effectively. Diabetes is a major health problem because it can cause serious complications such as cardiovascular diseases, eye diseases and kidney diseases for a long time, the high cost of treatment and the socioeconomic burden on the patient due to the loss of work power. Diabetes is now common in adults as well as in younger age groups. In this case, early diagnosis is as important as many diseases. There are various chemical tests for urine and calorie for diagnosis. This study was conducted to determine if people were diabetic by using data mining methods using blood tests and physical characteristics of the person. In this paper, 392 women were tested according to World Health Organization (WHO) criteria and data set. This data set is compared with the different classification algorithms of open source data mining software WEKA and it is determined whether or not they have diabetes according to this algorithm with the best result giving algorithm. The resulting data show that the values mentioned play an important role in the diagnosis of diabetes, even if it is partially inadequate. Keywords: Data mining, WEKA, Classification Algorithms, Diabetes, Diabetes Mellitus 1.Giriş Diyabet kan şekeri seviyesinin yükselmesi ile ortaya çıkan kronik olan metabolik bit hastalıktır. Dünya Sağlık Örgütüne (WHO) verilerine göre dünyada 422 milyon yetişkinin diyabet hastalığı(şeker hastalığı) taşımaktadır. Diyabetin 2 tipi bulunmaktadır. Tip 1 diyabet insülin hormonunu vücudunda hiç salgılayamayan hastaların diyabet türüdür. Genellikle çocuk veya gençlerde görülmektedir. Tip 2 diyabet ise daha çok yetişkinlerde görülmektedir. İnsülini vücudun düzenli ve yeterli kullanamaması durumlarında ortaya çıkmaktadır. Tip 2 diyabet dünyada en sık rastlanan diyabet tipidir [1] [2] [3] [4]. Diyabetin tanısı için idrar ve kanda kimyasal testler yapılmaktadır. Kanda yapılan testlerde, normal
sağlıklı kişilerde açlık kan şekeri 90 mg/dl altında, tokluk kan şekeri 2. Saatte 140 mg/dl nin altında, açlık insülin hormon düzeyi 10 un altında olmalıdır. Sağlıklı bir bireyin diastolik kan basınç değeri (küçük tansiyon) 80 mmhg olmalıdır. Dünya Sağlık Örgütü referans aralığına göre 18,5-24.99 arası değerler normal sayılır. vücut kitle endeksi değeri 30'un üzerinde obezite olarak kabul edilir. Kişinin bu gibi değerleri ele alınarak diyabet hastalığı bulunup bulunmadığına karar verilmektedir. [5] [6] Bu çalışmada da, US Uluslararası Diyabet, Sindirim ve Böbrek Hastalıkları Enstitüsü tarafından toplanmış veriler üzerinde WEKA yazılımı kullanılarak sınıflandırma yapılmıştır. Veri seti 392 kadının bilgilerinden oluşmaktadır. Çalışmada WEKA yazılımının sınıflandırma algoritmaları kullanılmıştır. 2.Veri Seti Veri madenciliği işlemlerinde veri önişleme önemli bir aşamadır. Bu aşamada veri temizleme, veri dönüşümü, veri birleştirme ve veri azaltma yapılabilir. Bu çalışmada US Uluslararası Diyabet, Sindirim ve Böbrek Hastalıkları Enstitüsü tarafından toplanmış bir veri seti kullanılmıştır. Bu veri seti 8 adet nitelikten 768 kadın örnekten oluşan Şekil-1 deki gibi.csv uzantılı bir excel dosyasıdır. Fakat daha sonra yapılan veri önişlemlerinde veri setinde boş görünen değerler silinmiştir. Sonuçta oluşan veri seti WEKA aracında kullanılmak üzere.arff uzantılı Şekil-2 deki gibi bir dosya ya dönüştürülmüştür. özellikler sayısal olduğu için.arff dosyasında numeric olarak tanımlanmıştır. Şekil-2:Diabetes veri setinin.arff uzantılı dosyasının görünümü Çalışmada veri setinin %66 sı Cross-validation(k katlamalı çapraz doğrulama) yöntemi ile eğitim amaçlı kullanılmış kalan %33 lük kısmı ise test amacıyla kullanılmıştır. 3. WEKA Yazılımı Yeni Zelanda Waikato Üniversitesi nde geliştirilen WEKA (Waikato Environment for Knowledge Analysis), açık kaynak kodlu bir veri madenciliği yazılımıdır. Java programlama dili ile geliştirilmiştir. WEKA, sınıflandırma, kümeleme, birliktelik analizi gibi yöntemlerin algoritmalarını içeren hazır bir yazılımdır. [7] Bu algoritmaların yanı sıra veri ön işleme, görselleme işlemlerini de gerçekleştirebilmektedir. WEKA aracını kullanmak için programlama bilmek gerekmemektedir. Programı çalıştırdığımızda karşımıza gelecek olan ekran Şekil-3 deki gibidir; Şekil-1:Diabetes veri setinin.csv uzantılı dosya görünümü
verilerinden oluşmaktadır. Explorer ile bu kadınların verilerini yüklediğimizde Şekil-4 deki Preprocess ekranı karşımıza gelmektedir. Şekil-3: Weka yazılımı arayüz ekranı. Karşımıza gelen Preprocess (önişleme) sekmesinde veri dosyaları yüklenir. WEKA ile bir veri seti üzerinde çalışacağımız zaman Explorer seçeneğinde Open File ile çalışacağımız dosyayı seçebiliriz. Fakat burada dosyayı seçebilmemiz için WEKA nın desteklediği formatta bir dosya türü kullanmalıyız. Genellikle kullanılan dosya formatı.arff uzantılı olan dosyalardır. Şekil-4: Explorer ekranında veri seti Explorer ekranında Visualize All butonuna basıldığı zaman veri setinin grafiksel gösterimi karşımıza gelmektedir. Bu grafiksel gösterim Şekil- 5 te görüldüğü gibidir. Classify (Sınıflandırma) sekmesi sınıflandırma algoritmalarının kullanılabildiği kısımdır. Sınıflandırma sekmesinden Choose butonu ile kullanacağımız sınıflama algoritmasını seçebiliriz. Test Options seçeneği ile veriyi nasıl parçalayacağımızı ayarlanabiliriz. Alt seçeneklerde bulunan Use Training set seçeneği ile veri setinin tamamı kullanılarak sınıflandırma yapılır. Supplied test set seçeneği ile eğitim için kullanılacak veri setini dışarıdan seçilebiliriz. Cross Validation seçeneği ile veri seçimi yapılabilmektedir. Percentage Split seçeneği ile veri setinin yüzde kaçının eğitim için kullanılacağını seçebiliriz. Start butonu ile de yazılımımızı çalıştırabiliriz. Bu çalışma için de WEKA aracının sınıflandırma algoritmaları kullanılacaktır. Ayrıca WEKA aracında Cluster (kümeleme), Associate (birliktelik kuralları), Select Attibute (nitelik seçme) ve Visualize (görselleştirme) sekmeleri de bulunmaktadır. 4. Sınıflandırma Bu çalışmada, US Uluslararası Diyabet, Sindirim ve Böbrek Hastalıkları Enstitüsü tarafından toplanmış veriler üzerinde sınıflandırma çalışması yapılmıştır. Veri seti 392 kadının kan testi ve fiziksel Şekil-5: Visualize ekranı(grafikler) Yapılan sınıflandırma çalışmasında J48, SimpleCart, J48graft ve LMT sınıflandırma algoritmaları denenmiş olup içlerinde en başarılı olan J48 algoritması ele alınmıştır. Bu algoritmada oluşan karar ağacı yapısı Şekil-6 da görülmektedir. Bu ağaçta da görüldüğü gibi Glukoz parametresi diyabet hastalığını etkileyen en önemli faktördür.
Algoritma Hasta Olanlar için TP oranı Hastalık Tanısı Konulmamışlar için TP oranı Doğru sınıflandırma Yüzdesi J48 0.594 0.901 %82.70 DecisionStump 0.750 0.832 %81.20 HoeffdingTree 0.625 0.861 %80.45 LMT 0.500 0.921 %81.95 Tablo-1:Sınıflandırma algoritmalarının başarı kıyaslaması 5. Sonuçlar Şekil-6: Oluşan Karar Ağacı. Şekil-7 de Karar ağacının yapısı sayısal olarak gösterilmiştir. Bu çalışmada WEKA aracı ile Diyabet Hastalığının sınıflandırma çalışması gerçekleştirilmiştir. Veri setinin gerçek verilerden oluşmasından dolayı sınıflandırma başarılarının yeteri kadar yüksek olduğu söylenebilir. Yapılan çalışma, Glukoz değerinin diyabet için en önemli kriter olduğunu göstermektedir. Sınıflandırma algoritmaları veri seti üzerinde başarı kıyaslaması yapıldığında J48 algoritmasının diğer algoritmalara göre daha yüksek başarıya sahip olduğu söylenebildiği Tablo- 1 görülmektedir. İleriki çalışmalarda diyabet tipleri üzerinde bir sınıflandırma çalışması yapılması insan sağlığı alanına daha fazla destek olacağından daha uygun olacaktır. Kaynaklar [1] T.C. Sağlık Bakanlığı, 2016. [Çevrimiçi]. http://diyabet.gov.tr/index.php?lang=tr&pag e=25. Şekil-7: Sayısal gösterim Diğer sınıflandırma algoritmaları da aynı veri setine aynı şartlar altında denenmiş olup Tablo-1 deki sonuçlar elde edilmiştir. [2] T.C. Sağlık Bakanlığı, 2016. [Çevrimiçi]. http://diyabet.gov.tr/index.php?lang=tr&pag e=36. [3] World Health Organization, 2016. [Çevrimiçi]. http://www.who.int/diabetes/en/. [4] World Health Organization, [Çevrimiçi]. http://www.who.int/diabetes/globalreport/en/. [5] M. Orata, 2016. [Çevrimiçi]. http://www.endokrinoloji.org/tr/endokrinol
oji4.asp?m2=6&m3=26&m4=169. [6] T. Kovankaya, DAHİLİYE POLİKLİNİKLERİNE BAŞVURAN HASTALARDA DİYABET VE DİSLİPİDEMİ İLİŞKİSİNİN DEĞERLENDİRİLMESİ, İstanbul: İSTANBUL GÖZTEPE EĞİTİM VE ARAŞTIRMA HASTANESİ, 2008. [7] G. Demir ve K. Zengin, «Weka Yazılımı Kullanılarak Anemi (Kansızlık) Hastalığı,» %1 içinde EEB 2016 Elektrik-Elektronik ve Bilgisayar Sempozyumu, Tokat, 2016.