Lbortuvr Test İstemleri Üzerinde Veri Mdenciliği: Destek Vektör Mkineleri ile Kdın Genitl Bölge Knserleri Tnı Kontrolü Keml TURHAN, Ysemin Zeynep ENGİN, Burçin KURT Biyoisttistik ve Tıp Bilişimi AD, Krdeniz Teknik Üniversitesi, Trbzon Dt Mining on Lbortory Test Orders: Femle Genitl Cncer Dignosis Control by Using Support Vector Mchines Abstrct: Lbortory tests orders contins very intense nd eqully importnt dt for Dt Mining. In this study, we hve been developed nd tested model for dignostic ccurcy nd consistency of Mlignnt neoplsms of femle genitl orgns. Model bsed on two importnt dt mining techniques; such s Assocition Rule Mining nd Support Vector Mchines. Key Words: Dt Mining; Support Vector Mchine; lbortory tests; ICD Özet: Lbortuvr testleri, veri mdenciliği çısındn incelenmesi gereken çok yoğun ve son derece önemli veriler içermektedir. Bu çlışmd Birliktelik Kurllrı (Assocition Rules) ve Destek Vektör Mkineleri(Support Vector Mchines) gibi iki önemli veri mdenciliği tekniği kullnılrk kdın genitl bölge knser teşhislerinin doğruluğunun ve tutrlılığının test edildiği bir model geliştirilmiştir. Anhtr Kelimeler: Veri Mdenciliği; Destek Vektör Mkineleri; lbortuvr testleri; ICD 1. Giriş Lbortuvr test istem sonuçlrı hekimlerin tnı koymlrın yrdımcı olck çok önemli ipuçlrı verebilmektedir. Ypıln bzı çlışmlr göre tnılrın %70 inin bu sonuçlrdn yrrlnılrk konulduğu ileri sürülmektedir [1]. Bu istemler bir hstne bilgi sistemi düşünüldüğünde çok yoğun dt birikimine neden oln kynklrdn en önemlisidir. Bilgi teknolojilerindeki gelişmelerin sonucund veri mdenciliği doğl bir devrim olmuştur. Veri mdenciliği, tek boyutlu yrrlnıln çok miktrdki dtnın yrrlı bilgi birikimine (knowledge) dönüştürülmesini ve özellikle öngörülemeyen boyutlrıyl kullnılmsını sğlyn popüler bir çlışm lnıdır. Bu bğlmd, sğlık lnınd veri mdenciliği çlışmlrı için lbortuvr test istemleri ilk çlışılmsı gereken kynklrdn birisidir. Bu çlışmd KTÜ Frbi Hstnesi 2010 yılı lbortuvr istemleri temel veri kynğı 29
olmuştur. Çlışm için gerekli oln verileri içeren değişik veritbnı tblolrındn bir SQL view oluşturulrk, kyıtlr veri mbrın bu view üzerinden çekilmiştir. 2. Gereç ve Yöntem Veritbnlrınd bilgi keşfi süreci genellikle şğıdki sıryı izlemektedir: 1. Problemin tnımlnmsı: 2. Verilerin Hzırlnmsı: Değişik veri kynklrındn çeşitli yöntemlerle lınn dtlrın çlışmnın mcın uygun olrk temizleme, birleştirme, seçme ve dönüştürme gibi işlemlerle hzır hle getirilmesi. 3. Veri Mdenciliği: Modelin kurulmsı ve değerlendirilmesi 4. Modelin Kullnılmsı 5. Modelin İzlenmesi. Ön İşlemler Bu çlışm için tüm veri mdenciliği çlışmlrınd kullnmk üzere nbilim dlımızc Dönüşüm Arcı Yzılımı(DAY) geliştirilmiştir. Frbi Hstnesi 2010 yılın it, hstlrın kişisel olmyn demogrfik verilerini içeren 227.228 frklı klinik lbortuvr test istem kydı DAY kullnılrk çlışm kpsmın lınmıştır. Bu kyıtlrın 86.588 i ytn, 140640 ı yktn hstlr ittir. Çlışm için önemli olduğu düşünülen hst vizit numrsı, vizit trihi, poliklinik dı ve kodu, cinsiyeti, doğum yeri ve trihi, son tnı kodu (ICD10), test kodu ve dı, örnek numrsı, sonuç ve sonuç birimi lnlrı, bu çlışm için tsrlnmış Orcle 10gR2 veritbnın ktrılmıştır. Sırsl ypıd oln dtlr veri nlizi için yty tbloy dönüştürülmüş, böylece her bir test isteminin tüm özellikleri tek bir tblo stırınd toplnmıştır. Böylece WEKA, Sttistic gibi veri mdenciliği rçlrınd veri nlizi için en uygun ypı oluşturulmuştur(bkz. Şekil 1-2). Şekil 1- Hstne Bilgi Sistemi view görünümü Şekil 2- DAY ile dönüştürülmüş veri tblosu. Dönüştürme işlemlerinde birliktelik kurllrı nlizi için testlerin vrlığı 1, yokluğu boş değer olrk işlenmiştir. Destek Vektör Mkinlrı(DVM, Support Vector Mchine- 30
SVM) için ise ynı ypıd, çlışılmış testler 1 olrk değil; doğrudn sonuçlrı kydedilmiştir. Modelin Kurulmsı Öncelikle veri tblosu genel kümeleme(clustering) nlizine tbi tutulmuş ve nlizler sonucund knser şüphesi ve tnısı konusund önemli ipucu sğlyn test sonuçlrı ve hst özellikleri erkekler için Totl ve Free PSA, kdınlr için ise CEA, AFP, CA 125, CA 15-3, CA 19-9 olrk belirlenmiştir. Birliktelik kurllrı sonucu belirlenen test istemlerinden yrrlnılrk hstlrın ICD10 kodlrının doğruluğunun sınnmsı mcı ile doğrusl y d doğrusl olmyn sınıflndırm problemlerinde oldukç bşrılı sonuçlr veren DVM kullnılmsın krr verilmiştir. DVM nin temel prensibi bir krr düzleminde sınıflr rsı optimum krr sınırlrını belirlemektir. Bu sınırlr göre istenen nesnenin hngi sınıf it olduğu belirlenebilmektedir. Şekil 3- DVM Doğrusl() ve doğrusl olmyn(b) sınıflndırm 1 Gerçek yşmd sınıflm problemleri genellikle doğrusl olmmktdır(şekil 3-b). Bu nedenle DVM de doğrusl olmyn sınıflm problemleri kernel dı verilen mtemtiksel fonksiyonlr kullnılrk doğrusl yırımın ypılbilmesi için dönüşüm işlemine tbi tutulur(şekil 3-b). Bunun sonucu sınıflr rsı özellikleri çısındn en çok benzeyen, bşk bir deyişle en ykın iki nesne rsındki en uzk mesfeyi bulmyı sğlyn itertif bir lgoritm ile optimum krr doğrusu çizilebilmektedir(şekil 4-b). Şekil 4- Optiml Doğru 2 1 Sttistic Progrmı yrdım dokümnındn dpte edilmiştir. 31
Modelin Çlıştırılmsı Çlışm kpsmın CEA, AFP, CA 125, CA 15 3, CA 19 9 testlerinden en z birisi istenmiş oln 6.628 istem dhil edilmiştir. Bunlr içerisinde ön çlışm olrk ICD10 kodu C51-C58 rlığınd oln Kdın Genitl Bölge Knseri(KGBK) tnısı konmuş 642 hst (Y) ile geri kln hstlr (N) ile işretlenerek gruplndırılmıştır. DVM de kullnılck sürekli değişkenlerin seçimi için CA 125 testi ile birlikte en çok istenen testleri y d testi belirlemek mcıyl birliktelik kurlı çıkrımı(assocition Rule Mining) ypılmıştır. CA 125 in seçilme nedeni KGBK tnısı ile ilgili önemli veri içermesidir. Çıkrıln birliktelik kurlı şğıdki gibidir; CA 125=1 1401 ==> CA 19-9=1 1172 conf (0.84), supp (0,23) Birliktelik kurllrı WEKA kullnılrk hesplnmıştır. Bun göre çlışmd CEA, AFP, CA 125, CA 15-3, CA 19-9 testlerinden herhngi birinin istendiği toplm 5.105 yktn hst kydı kullnılmış, bunlr içinde CA 125 testi 1.401 kez istenmiş ve bu istemlerin 1.172 sinde ynı zmnd CA 19-9 d istenmiştir (conf = 1172/1401 = 0.84). Birliktelik kurlın göre DVM ye kesiksiz değişken olrk CA 125 ve CA 19-9 sonuçlrı ve ktegorik veriler olrk poliklinik kodu, cinsiyet, yş ve ICD10 tnı kodlrı verilmiştir. DVM sonuçlrı şğıd listelenmiştir. Dtset CANCER_DATA: Dependent: KADINGK Independents: CA125_90081044, CA19-9_90083044, POLIKLINIK_KODU, CINSIYET, AGE, ICD10 Smple size = 867 (Trin), 304 (Test), 1171 (Overll) Support Vector mchine results: SVM type: Clssifiction type 1 (cpcity=10,000) Kernel type: Rdil Bsis Function (gmm=0,167) Number of support vectors = 320 (0 bounded) Support vectors per clss: 208 (N), 112 (Y) Clss. ccurcy (%) = 100,000(Trin), 99,342(Test), 99,829(Overll) Sonuçlr göre toplm 1.171 test istemi içerisinde 867 si DVM eğitimi için kullnılmış, 304 istem ise DVM nin testi için kullnılmıştır. Eğitim bşrısı %100, test bşrısı %99,3 olduğu görülmektedir. Test setinde yer ln 304 hstnın 166 sı KGBK tnısı (N) ve 138 i ise(y) şeklinde iken DVM nin sınıflmsın göre ise 168 (N), 136(Y) şeklinde oluşmuştur. Bun göre 2 hst KGMK sonucu (Y) iken DVM ye göre (N) olmuştur. Bu iki test istemi incelendiğinde CA 125 ve CA 19-9 test sonuçlrının norml 2 Hn J., Syf 337 den lınmıştır. 32
rlıkt olduğu görülmektedir. Dikkt çeken diğer özellik ise bir hstnın krdiyoloji polikliniğinde kyıtlı ve 30 yşınd olduğudur. DVM in sınıflndırmyı bşrılı yptığı, ynlış sınıflndırmlrın ise rştırılmsı gerektiği düşünülmektedir. Bu rştırmnın mcın uygun bir durumdur. 3. Trtışm ve Sonuç Bu çlışmd Çıkrıln birliktelik kurllrın göre çlışm kpsmın lınn özelliklerin KGBK tnılrının tutrlılığını DVM ile sınmk mümkün müdür? sorusun cevp rnmıştır. Elde edilen sonuçlr DVM nin bun benzer sınıflm ve thmin için ümit verici bir teknik olduğunu göstermektedir. Lbortuvr testleri ve tnılr rsındki ilişkileri nliz eden birçok veri mdenciliği çlışmlrı görülmektedir. Birlikte istenen testlerden yrrlnılrk ypıln çlışmd, test rutinlerinin birlikteliği rştırılmış ve yeni rutin gruplrı önerilmiştir[2]. Bşk bir çlışmd totl kolestrol, LDL, trigliserit, HDL ve VLDL gibi biyokimy test prmetreleri nliz edilerek hiperlipidemi hstlığının teşhisi için krr destek sistemi geliştirilmiştir[3]. Göğüs ğrısının dh hızlı ve doğru bir şekilde sınıflndırılmsı için ypıln çlışmd, birliktelik kurllrı ve sınıflndırm veri mdenciliği tekniklerini kullnn hibrit bir model geliştirilmiştir[4]. Glukoz, totl kolesterol, kretinin gibi biyokimy testleri ve lkol ve sigr kullnımı, ile öyküsü, krdiyk veriler ve njiyogrfi sonuçlrı gibi verilerden yrrlnılrk koroner rter hstlıklrının teşhisi için Byesin uzmn sistem önerilmiştir[5]. Sğlık lnınd ypıln veri mdenciliği çlışmlrı dikkte lındığınd bu lnınd çlışmy değer yığınl veri olduğu görülmektedir. Hstnelerde ICD kodlrı özellikle SGK ödemeleri için zorunlu olduğundn girilmektedir. Bu kodlr hızlı çlışm temposu ve belirsizlikler nedeniyle htlı girilebilmektedir. Bu tür çlışmlr girilen tnılrın tutrlı ve doğru olmsı için yrrlı sonuçlr verebilir. Gerek ödeyici kurumlr ve gerekse hizmet veren kurumlrd ypılck veri mdenciliği çlışmlrı için geniş bir uygulm lnı olduğu gözükmektedir. Çok kısıtlı veri seti kullnılrk lınn bu sonuçlr dh çok veri seti kullnılrk, kpsmlı ve uzun süreli rştırmlrl çok dh iyi noktlr getirilebilir. 4. Kynkç [1] Göktş P. Lbortuvr testleri fzl mı isteniyor?. http://www.sglikktuel.com/yzi/lbortuvr-testleri-fzl-mi-isteniyor--6306.htm, Son erişim: 29.09.2011. [2] Sntngelo J, Rogers P, Buskirk J, Mekhjin HS, Liu J, Kml J. Using Dt Mining Tools to Discover Novel Clinicl Lbortory Test Btteries, AMIA 2007: New York, USA. [3] Dogn S nd Turkoglu I. Dignosing Hyperlipidemi Using Assocition Rules, Mthemticl nd Computtionl Applictions 2008: Vol. 13, No. 3, pp. 193-202. [4] H SH nd Joo SH. A Hybrid Dt Mining Method for the Medicl Clssifiction of Chest Pin, Interntionl Journl of Computer nd Informtion Engineering 2010: 4:1. [5] Chu CM, Chien WC, Li CH, Bludu HB, Tschi HJ, Pi L, Hsieh SM, Chu NF, Klr A, Hux R nd Wetter T. A Byesin Expert System for Clinicl Detecting Coronry Artery Disese, J Med Sci 2009: 33
29(4):187-194. [6] Agrwl R, Imielinski T, Swmi A, Mining Assocition Rules Between Sets of Items in Lrge Dtbses, ACM SIGMOD Conference 1993, Wshington, USA. [7] E. Delibs, Birliktelik Anlizi İle Reçeteli İlç Stişlri Üzerinde Bir Uygulm. [Yüksek Lisns Tezi], Cumhuriyet Uni., Sivs, Türkiye, 2010. [8] Hn J, Kmber M. Dt Mining: Concepts nd Techniques. 2nd ed. New York: Morgn Kufmnn Publishers, 2006. [9] Sttistic yzılımı yrdım dokümnlrı. 5. Sorumlu Yzrın Adresi Keml TURHAN kturhn.tr@gmil.com 34