Hastane Bilgi Yönetim Sistemi Verilerinde Akademik Çalışmalar için Açık Kaynak Önerileri ve Örnek Uygulamalar



Benzer belgeler
Hastane Bilgi Yönetim Sistemi Verilerinde Akademik Çalışmalar için Açık Kaynak Önerileri ve Örnek Uygulamalar

T.C. SAĞLIK BAKANLIĞI Sağlık Hizmetleri Genel Müdürlüğü. Sayı : /./2014 Konu : Gözetimli Hizmet Laboratuvarları Hakkında

Romatoid Artrit (RA)ve Ankilozan Spondilit (AS) Fizik Tedavi ve Rehabilitasyon Araştırması FTR

NUMUNELERİN SAKLANMA KRİTERLERİ TALİMATI

Akreditasyon Sertifikası Eki (Sayfa 1/5) Akreditasyon Kapsamı

Muayeneler Laboratuvar Tetkikleri Radyoloji Tetkikleri. (Hesaplamalı) Elektrokardiyogram (BAYAN) Glukoz (Açlık) Total Kolesterol

DETAYLI KADIN CHECK- UP

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

Mlz Aciklamasi. Tutar 6638 TROPONİN-T VEYA TROPONİN-I. Mlz Aciklamasi. Tutar 6638 HBV DNA HCV-RNA HCV GENOTİP. Mlz Aciklamasi. Tutar 6638 ÜRE GLUKOZ

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

YENİ DİYABET CHECK UP

LABORATUVAR NUMUNE KABUL RED KRİTERLERİ LİSTESİ

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

LABPT KALİTE KONTROL GENEL BİLGİLER VE 2015 YILI TAKVİMİ

LABPT KALİTE KONTROL PROGRAMI

Bahadır KARASULU, Aybars UĞUR Ege Üniversitesi, Bilgisayar Mühendisliği Bölümü

CBS ve Coğrafi Hesaplama

Laboratuv l ar rası Karş Kar ılaştırma P rogram Programı

GAZİANTEP İL HALK SAĞLIĞI LABORATUVARI TEST REHBERİ

Düzen Laboratuvarlar Grubu

LABPT KALİTE KONTROL GENEL BİLGİLER VE 2014 YILI TAKVİMİ

KLİNİK BİYOKİMYA UZMANLARI DERNEĞİ EKSTERNAL KALİTE KONTROL PROGRAMI KBUDEK 2018 PROGRAMLARI

BİRİNCİ BASAMAKTA AKILCI LABORATUVAR KULLANIMI

Babalar Gününe Özel Panellerimiz Varlıkları ve Sağlıkları Bizim İçin Önemlidir

KLİNİK BİYOKİMYA UZMANLARI DERNEĞİ EKSTERNAL KALİTE KONTROL PROGRAMI KBUDEK 2019 PROGRAMLARI

KLİNİK BİYOKİMYA UZMANLARI DERNEĞİ EKSTERNAL KALİTE KONTROL PROGRAMI KBUDEK 2018 PROGRAMLARI

ÖRNEK KABUL VE SONUÇ VERME GÜNÜ LİSTESİ. ÖRNEK KABUL GÜN ve SAATİ

LABPT KALİTE KONTROL PROGRAMI GENEL BİLGİLER VE 2013 YILI TAKVİMİ

Dr.Yahya Laleli Dr.Murat Öktem

Anneler Gününe Özel Panellerimiz Varlıkları ve Sağlıkları Bizim İçin Önemlidir

ÇOCUK CHECK UP PROGRAMI

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Tedarik Zinciri Yönetiminde Yapay Zeka Teknikler

KBUDEK 2016 PROGRAMLARI

LABORATUVAR TEST SONUÇLARI PANİK DEĞERLER TALİMATI

Bulanık Mantık Tabanlı Uçak Modeli Tespiti

Web Madenciliği (Web Mining)

Sağlıklı hayat.

KBUDEK 2015 PROGRAMLARI

Zeki Optimizasyon Teknikleri

OKUL ÖNCESİ CHECK-UP PROGRAMI

EK-2 A- HASTANE BİLGİ YÖNETİM SİSTEMLERİ ÜZERİNDE YAPILACAK DÜZENLEMELER

ÇALIŞMA GÜNLERİ saat. Mesai saatleri içinde saat saat saat. Mesai saatleri içinde

Uzaktan Algılama Uygulamaları

Akreditasyon Sertifikası Eki (Sayfa 1/8) Akreditasyon Kapsamı

AKILICI LABORATUVAR KULLANIMI TEST İSTEM PROSEDÜRÜ

Özörgütlemeli Öğrenme (SOM) A. Cumhur KINACI

Makine Öğrenmesi 2. hafta

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

Zamansal Veri Madenciliği ve Anomali Tespiti için Bir Uygulama

Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ. Makine Öğrenmesi. Erhan AKDOĞAN, Ph.D.

Check-up. dedigin. Kişiye ve yaşa özel check-up ile kontrol ü sağlamaktır.

OKUL ÖNCESİ CHECK-UP PROGRAMI

DETAYLI KADIN CHECK- UP

K En Yakın Komşu Methodu (KNearest Neighborhood)

2. Kapsam 2.1. Sağlık hizmet sunucularındaki acil ve yoğun bakım üniteleri dışındaki birimlerden istenen test istemlerini kapsar.

KBUDEK 2015 PROGRAMLARI

YZM 5257 YAPAY ZEKA VE UZMAN SİSTEMLER DERS#6: GENETİK ALGORİTMALAR

Eğitim seti (training set) sınıflandırma modelinin elde edileceği kayıtları içerir

BAYAN CHECK UP PAKETİ

ÖRNEK KABUL VE SONUÇ VERME GÜNÜ LİSTESİ. ÖRNEK KABUL GÜN ve SAATİ

2011 Third International Conference on Intelligent Human-Machine Systems and Cybernetics

SİSTİNOZİS KAYIT SİSTEMİ VERİ ALANLARI (*) ile belirtilen alanların doldurulması zorunludur. Hasta Demografik Bilgileri

Genetik Algoritmalar. Bölüm 1. Optimizasyon. Yrd. Doç. Dr. Adem Tuncer E-posta:

Kümeleme Algoritmaları. Tahir Emre KALAYCI

VERİ MADENCİLİĞİNE BAKIŞ

MATRİKSE DUYARSIZ KİMYA DKK

BİYOKİMYA LABORATUVARI ÇALIŞMA PROSEDÜRÜ

Yapay Bağışık Sistemler ve Klonal Seçim. Bmü-579 Meta Sezgisel Yöntemler Yrd. Doç. Dr. İlhan AYDIN

GENETİK ALGORİTMALAR. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

GEZGİN SATICI PROBLEMİ İÇİN BİR MEMETİK ALGORİTMA ÖNERİSİ

GENETİK ALGORİTMA ÖZNUR CENGİZ HİLAL KOCA

MUĞLA HALK SAĞLIĞI LABORATUVARI

Akreditasyon Sertifikası Eki (Sayfa 1/5) Akreditasyon Kapsamı

Akış YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

GENETİK ALGORİTMALAR BÜŞRA GÜRACAR

Kronik böbrek yetmezliğine sahip olan her hasta böbrek nakli için aday olabilmektedir.

Akış YILDIZ TEKNİK ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

Tarım ve hayvancılıkta doğru analiz ve doğru yönlendirme verimi birebir etkiler!

Karaciğerde Oluşan Hastalıkların Tespitinde Makine Öğrenmesi Yöntemlerinin Kullanılması

Dr. Yahya Laleli Dr Murat Öktem

LABORATUVARDA HATA KAYNAKLARI

Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ. Ders 1- Yapay Zekâya Giriş. Erhan AKDOĞAN, Ph.D.

Yard. Doç. Dr. İrfan DELİ. Matematik

Web Madenciliği (Web Mining)

LABORATUVAR TESTLERİNİN KLİNİK YORUMU

Fonksiyon Optimizasyonunda Genetik Algoritmalar

Uzaktan Algılama Teknolojileri

ÖZGEÇMİŞ. Görev Kurum/Kuruluş Yıl Araştırma Görevlisi. Erzincan Üniversitesi Sağlık Yüksekokulu. Maltepe Üniversitesi Hemşirelik Yüksekokulu

Kan Damarı Genişliği Değişiminin Ölçülmesinde Medikal Görüntü İşlemenin Uygulanması

OSPF PROTOKOLÜNÜ KULLANAN ROUTER LARIN MALİYET BİLGİSİNİN BULANIK MANTIKLA BELİRLENMESİ

İÜ ONKOLOJİ ENSTİTÜSÜ TIBBİ BİYOKİMYA LABORATUVARI İŞLEYİŞ PROSEDÜRÜ

MATRİKSE DUYARSIZ KİMYA DKK

Bilişim Sistemleri. Modelleme, Analiz ve Tasarım. Yrd. Doç. Dr. Alper GÖKSU

Gu nlu k Rutin Hasta Tesḩis ve Tedavisinde Yapay Zeka

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

Transkript:

Hastane Bilgi Yönetim Sistemi Verilerinde Akademik Çalışmalar için Açık Kaynak Önerileri ve Örnek Uygulamalar Yunus Doğan 1, Feriştah Dalkılıç 1, Alp Kut 1 1 Dokuz Eylül Üniversitesi, Bilgisayar Mühendisliği Bölümü, İzmir yunus@cs.deu.edu.tr, feristah@cs.deu.edu.tr, alp@cs.deu.edu.tr Özet: Hastane Bilgi Yönetim Sistemleri ülkemizin kamu ve özel hastanelerinin tamamımda kullanılmaktadır. Yirmi dört saat kesintisiz olarak yeni tıbbi verilerin biriktiği bu geniş veri tabanlarında biriken bu değerli verilerin günümüzde sadece kurum içinde raporlama ve sorgular için kullanıldığına ve temiz veri ambarları şeklinde tutulamadığından her hangi bir akademik çalışma için değerlendirilemediğine tanık olmaktayız. Bu bildiride akademik çalışmaların neden yapılamadığı kısaca açıklanıp, ülkemizin tıbbi alanda gelişimi adına bu verilerin belirli sınırlar dâhilinde ve standart protokoller ile akademik çalışmalar için açık kaynak olması gerektiğine vurgu yapılacak ve gerçekleştirdiğimiz tıbbi uygulamalarda bu verilerin işlenip nasıl kıymetli sonuçların elde edilebileceğinden bahsedilecektir. Çalışmalarımızda veri madenciliği tekniklerinden kümele algoritmaları, gerekli izinleri alınmış laboratuar tahlil sonuçları üzerinde, makine öğrenme tekniklerinden genetik algoritma ise internetten açık kaynak olarak paylaşılan, hastaların kolesterol değerlerinin ve etkenlerinin tutulduğu bir veri kümesi üzerinde uygulanmıştır. Anahtar Sözcükler: Hastane Bilgi Yönetim Sistemleri, Veri Madenciliği, Makine Öğrenmesi, Kendi Kendini Düzenleyen Haritalar, K-Ortalama, Genetik Algoritma Open Source Suggestions for Academic Studies of Hospital Information System Data and Reference Applications Abstract: Hospital Information Systems are used in all public and private hospitals in our country. Valuable data which is obtained from these big databases, where updated data are collected continuously during all day, is used for only some necessary reports and queries inside of the corporation, and this data may not be considered for an academic study, because it is not held as a clean data warehouse. In this paper, why academic studies could not be made is expressed briefly. It is underlined that this data should be an open source with standard protocols under definite boundaries for academic studies in order to supply the improvement of medical research in our country, and it is mentioned that how this data is processed and valuable patterns are obtained. In our studies, clustering algorithms from data mining techniques have been used on laboratory analysis results which necessary permissions are obtained to use, and genetic algorithm from machine learning techniques has been used on an open source data set which is shared on internet, and has cholesterol values with other determinate values of some patients. Keywords: Hospital Information Systems, Data Mining, Machine Learning, Self-Organizing Map (SOM), K-Means, Genetic Algorithm.

1. Giriş Hastane Bilgi Yönetim Sistemlerinin (HBYS) amacı devamlı olarak tıbbi verilerinin dijital halde, güvenli bir merkezi veri tabanında biriktirilmesidir. Özellikle üniversite hastanelerinde biriken bilginin kıymeti göz önüne alındığında, bu verilerle hekimlerimizin akademik çalışmalarını yapabilmesi amaçlanmalıdır. Hekimlerimizin özellikle yüksek sınıflı dergilerde yayın yapabilmelerinin öncelikli şartı, doğruluğu ve güvenirliği tam olan dijital veriler üzerinde çalışmalarıdır. Ancak ülkemizde çoğu sistemin günlük raporlama ve faturalama için kullanılmasından ötürü, bu veri tabanlarının hastanın gerçek verilerinin dışında yanlış ve kirli verilerin de bulunduğu veri depoları şeklinde olduğunu görmekteyiz. Bu nedenle üniversite hastanelerinde bazı hekimler, sorumlusu oldukları hastaların bilgilerini, HBYS dışında kendilerine ait hasta izlem formlarında kâğıt üzerinde arşivlemektedir. Bunun sonucu olarak, hekimler başta zamanlarının önemli bir bölümünü veri arşivlemek için harcamakta ve sonrasında dijital olmayan verilerle çalışmak zorunda kalarak ülkemiz adına önemli çalışmalar yapmakta zorlanmaktadırlar. Ülkemizde bu konudaki eksiklerden bir diğeri de gelişmiş ülkelerin hastanelerine bakıldığında her hastalık için ayrı bir sistemin geliştirildiği ve özellikle kanser gibi takibi önemli olan hastalıklarda ülkenin tüm verilerinin bir merkezde toplandığını görmekteyiz. Bu veriler sadece hastayı ve hastalığı takip amacıyla kullanıldığından temiz veri ambarları halinde ve belirli standartlar ile tutulmakta ki sonrasında ülkenin hekimleri ilgilendikleri hastalık kümelerine daha az çaba ile ulaşarak güvenli bir şekilde çalışabilmektedir. Ülkemizde tıbbi verilerin güvenilirliği dışında bir başka engel de akademik çalışma yapabilmek için gerekli yasal izinlerin alınma sürecidir. Ülkemizde bu sürecin gelişmiş ülkelere kıyasla zorlayıcı kaldığını görmekteyiz. Hastaların mahremiyet içeren demografik bilgileri haricinde tüm tıbbi verileri, ticari amaç olmadan akademik çalışmalar için araştırma merkezlerinden ve üniversitelerden yurt dışı örneklerde olduğu gibi açık kaynak olarak erişilebilir olması gerekmektedir [5]. Gerçekleştirdiğimiz örnek tıbbi uygulamalardan ilkinde, gerekli izinleri alınarak elde edilmiş laboratuar verileri kullanılırken ikincisinde internetten açık kaynak olarak paylaşılmış bir tıbbi veri kümesi kullanılmıştır. Sonuç olarak bu verilerin işlenip nasıl değerli sonuçların elde edilebileceğinden bahsedilecektir. 2. Tıbbi Laboratuar Testleri Günümüzde birçok hastalığın erken teşhisi, tanılanması ve sağaltımının kontrol edilmesinde kullanılan laboratuar test sonuçları, hastane bilgi sistemleri kullanımı ile veri tabanlarına kayıt edilmekte ve oradan da veri depolarına depolanmak üzere gönderilmektedir. HBYS parçalarından biri olan laboratuar bilgi sistemi (LBS), doktorların hasta kliniğinin aydınlatılması için tıbbi örneklerin incelenmesi istemi, elde edilen sonuçların gösterimi ve iletişimini sağlayan bir modüldür. LBS verileri HBYS nin en zengin içeriğini oluşturan verileri kapsamaktadır. Bu içeriğe geriye dönük olarak hastane veri merkezindeki depolardan yetkiler çerçevesinde erişilebilmektedir. Bu verilerin hastaların kliniğinin aydınlatılması ya da uzman sistemlerin tasarımında kullanılması ile tasarlanan sistemlerin başarımının gerçek veriler üzerinde test edilmesi fırsatı bulunacaktır. Bu çalışmada tıbbi örneklerin incelendiği özel bir laboratuara ait 3 aylık veri seti üzerinde kullanılan veri madenciliği teknikleri ile ortaya çıkarılan bilgilerin işlenmesi ve tıbba hizmet edebileceği

düşünülen uzman bir sistemin tasarımı amaçlanmıştır. Sağlık kurumuna başvuran bireylerden hastalıkların tanılanması veya uygulanan tedavinin başarımının izlenmesi için sıklıkla alınan biyolojik örnekler kan, idrar ve gaitadır. Bireylerden alınan örnekler ile inceleme yöntemlerine göre 4 alt gruba ayrılır; 1. Ölçüm materyali kan olan testler a. Biyokimya testleri; albumin, alkalen fosfataz, ALT, AST, asit fosfataz, amilaz, bilirubinler, demir, demir bağlama kapasitesi, fosfor, GGT, glukoz, globulin, HDLkolesterol, LDL-kolesterol, kalsiyum, klor, kolesterol, kreatinin, kreatinin fosfokinaz, kreatinin fosfokinaz izoenzimleri, laktat dehidrojenaz (LDH), potasyum, sodyum, transferrin, trigliserit, üre, ürik asit. b. Hematoloji testleri; bazofil, eozinofil, eritrosit, lenfosit, lökosit, monosit. c. Hormon testleri; tiroid stimülan hormon (TSH), T3, FT3, T4, FT4, E2, Progesteron, folikül stimülan hormon (FSH), LH, beta HCG, prolaktin, testeron, DHEA- SO4. d. Tümör işaretleyicileri; AFP(Alfa feto protein), CEA(Karsino embriyonejik antijen), PSA(Prostat spesifik antijen), Ca15-3, Ca19-9, Ca125, Ca50, Ca72-4, NSE(Nöron spesifik enolaz), SCC(Squomaz cell carsinom), Beta2-mikroglobulin, Thyreoglobulin e. İmmunoloji testleri; ASO, RF, CRP, sedimantasyon. f. Seroloji testleri; İmmunglobulin (IgA, IgG, IgM), kompleman (C3,C4) g. İlaç düzeyi testleri 2. Ölçüm materyali idrar ve dışkı olan testler a. İdrar; idrarda bilirubin, idrar dansitesi, idrarda glukoz, idrarda hematüri, idrarda keton, idrar PH ı, idrarda protein, idrarda ürobilinojen. b. Dışkı; gaitada gizli kan, gaitada parazit. 3. Gebelik testi a. HCG düzeyi 4. Kültür grubu testleri a. Kültür; balgam, boğaz, burun, gaita, göz, idrar, kulak, yara kültürü. Dört ana başlıkta özetlenen laboratuar test sonuçlarının normal bir insanda bulunması gereken değerler kullanılan cihazın kalibrasyonuna göre referans değerleri olarak isimlendirilmekte ve referans değer aralıklarında çıkan sonuçların karşısında normal, referans değerlerinin altında ya da üstünde çıkan değerlerin karşısında ise sırasıyla düşük ya da yüksek olarak nitelendirilip kayıt altına alınmaktadır. Referans değerlerin bazıları yaşa ve cinsiyete göre de değişim göstermektedir [1]. 3. Yöntem Tıbbi örneklerin incelendiği özel bir laboratuara ait 3 aylık veri seti üzerinde 26.303 bireye ait toplam 39 özellik ve 650.625 adet veri bulunmaktadır. Ön işleme hastaların ve testlerin seçimi, bu seçim sonrası elde edilen verilerin min-maks normalizasyonu sonucu 0 ile 1 aralığında değerler atanmasını kapsamaktadır. Veri seti üzerinde bulunan verilerin seçilmesi işleminde, bilgi girilmemiş ve test referans değerleri arasında bulunan veriler inceleme dışı bırakılmıştır. Ön işleme sonucu çalışılan 18.781 bireye ait toplam 39 özellik üzerinde çalışma yürütülmüştür. Veri setimizde hastalık sonucu gibi belirleyici bir sınıf bilgisi olmadığı için veri setindeki verilerin eğiticisiz kümelenmesi yöntemine gidilmiştir. Verilerin 600X600 ızgara yapısında SOM a aktarılmış ve harita üzerinde k-means algoritması ile verilerin kümelenmesi sağlanmıştır. 3.1 Kendi Kendini Düzenleyen Haritalar Kendi kendini düzenleyen haritaların (Self- Organising Map; SOM) ana amacı, girdi uzayındaki komşuluk ilişkilerini mümkün olduğunca koruyan ve birimler arasındaki

komşuluk ilişkilerine göre topoloji-korumalı bir harita yaratmaktır. SOM un eğitiminde başlıca zaman tüketen adımlar verilen bir örnek için kazanan düğümün (winner node) yerleştirilmesi ile ilgili alt-problem boyunca geçen adımlardır. Bir kazanan düğüm her girdi vektörü için en iyi uyumlu birim (Best Matching Unit; BMU) şeklinde ifade edilir. En çok zaman harcanan kısım komşulukları bulurken geçen süredir. Komşuluk hesapları öklid mesafesi (uzaydaki iki nokta arasındaki mesafe) uyarınca hesaplanılır. Fiziksel uzayda iki boyutlu bir ızgara yapısı sergileyen SOM, Ağırlık/Girdi uzayında eğimli bir yapı sergilemektedir[3]. Bir örnekte en yakın komşuyu bulma problemi için kullanışlı çok sayıda yöntem vardır. En geçerli ve baskın karşılaştırma da, şablon vektörlerin durağan kalacağı varsayımı ile yapılmaktadır. SOM in bu durumunda tüm düğümlerin ağırlıkları sabit aralıklarla güncellenmektedir [3]. SOM ağları diğer bütün yapay sinir ağları gibi iki farklı şekilde çalışmaktadır. İlk çalışma şeklinde sistem kendini eğitmektedir. Bu çalışma şeklindeyken rekabetçi öğrenme (competitive learning) kullanılır. İkinci çalışma şekli olan haritalama düzeyinde ise ağ, gelen yeni girdiyi doğru haritalamak için çalışır. Temel olarak çok boyutlu girdilerin (multi dimensional inputs) daha az boyuttaki çıktılara indirgenmesine dayanan çalışma mantığı problemin basitleştirilmesini amaçlayan bir boyut azaltma (dimension reduction) işlemidir. SOM algoritması [4, 7]; 1. Ağımızdaki nöronların ağırlık değerlerini rastgele olarak başlatıyoruz 2. Giriş vektörlerini alıyoruz. (Sistemdeki hedef vektörlerimiz) 3. Haritadaki bütün değerler dolaşılıyor ve: a. Giriş vektörü ile dolaşılmakta olan harita değeri arasındaki mesafe öklit mesafesi (euclid distance) olarak hesaplanır. b. En kısa mesafeye sahip olan düğüm alınır (bu yönteme en uygun (best matching unit, BMU) ismi verilir). 4. Bu seçtiğimiz en uygun düğüme komşu olan bütün düğümler güncellenerek giriş vektörüne yaklaştırılır. (Aşağıdaki formül kullanılır): Wv(t + 1) = Wv(t) + Θ(t)α(t)(D(t) Wv(t)) (t = şimdiki adım, λ = adım üzerindeki zaman limiti, Wv = şimdiki ağırlık vektörü (weight vector), D=hedeflenen giriş değeri, Θ(t) = komşuluk fonksiyonu(en uygun komşudan ne kadar uzağa gidileceği), α(t) = zamana bağlı öğrenme limiti). 5. t < λ olduğu sürece 2. adıma dönülerek işlemler tekrar edilir[3]. 3.2 K-Ortalama ile Kümeleme (K-Means) Algoritmanın genel mantığı n adet veri nesnesinden oluşan bir veri kümesini(x), giriş parametresi olarak verilen k (k n) adet kümeye bölümlemektir. Gerçekleştirilen bölümleme işlemi sonunda elde edilen kümelerin, küme içi benzerliklerinin maksimum ve kümeler arası benzerliklerinin minimum olmasını sağlamak amaçlanmaktadır. Yöntemin performansını k küme sayısı, başlangıç olarak seçilen küme merkezlerinin değerleri ve benzerlik ölçümü kriterleri etkilemektedir. K-means algoritmasının dört aşaması vardır [2, 6]; 1. Veri kümesi k altkümeye ayrılır (her demet bir altküme). 2. Her demetin ortalaması hesaplanır: merkez nokta (demetteki nesnelerin niteliklerinin ortalaması). 3. Her nesne en yakın merkez noktanın olduğu demete dahil edilir.

4. Nesnelerin demetlenmesinde değişiklik olmayana kadar 2 ve 3. adımlar tekrarlanır [2, 6]. kadar hekime karar vermede destekleyici bir sistemin yapılabileceği görülebilmektedir. 4. SOM Uygulaması Tıbbi laboratuar test verilerinin 600X600 ızgara yapısında SOM a aktarılarak haritalanmasından sonra kümelemenin sağlanması için k-means algoritması uygulandı ve 3 kümeye veriler ayrıldı (Şekil 2.). 18781 bireye ait toplam 39 özellik içeren verilerin kümelenmesi sağlandıktan sonra yeni bir test sonucu rasgele bir değer atanarak sisteme girilmesi ile kümelenmesi sağlandı. Daha sonra 3 kümenin içerdiği verilerin incelenmesi sağlandı. Şekil 2. K-means algoritması ile verilerin 3 kümeye ayrılması Şekil 1. Verilerin SOM a aktarılarak haritalanması 4.1 SOM Uygulama Sonuçları 18.781 bireye ait toplam 39 özellik üzerinde yürütülen çalışmada Tıbbi laboratuar test veriler 600X600 ızgara yapısında SOM a aktarılmış ve harita üzerinde kümelenmiş verilerin k-means algoritması ile tekrar kümelenmesi sağlanmıştır. Böylece K-means yöntemi ile veriler üç kümeye ayrılmış ve ortak özellikteki hastalar ilgili kümelerde toplanabilmiştir. Yeni bir hasta geldiğinde onun hangi kümeye ait olacağı bulunabilmekte ve bu hastaya teşhisten hangi tedavilerin uygulanacağına Şekil 3. ASO Kantitatif A laboratuar test sonucu olarak rasgele bir değerin (20) atanması ile kümelemenin yapılmasının sağlanması (yeni veri siyah nokta ile belirtilmiştir). 5. Baskın Alt Alanların Tespiti için Genetik Algoritma Yaklaşımı Bu çalışmanın amacı, veri kümemiz içinde hedef alt alan olan kolesterol alanını etkileyen

en baskın alt alanları bulabilmektir. 303 hastanın kolesterol değerleri hakkında olan veri kümemiz 22 Temmuz 1988 yılında David Aha tarafından derlenmiş ve açık kaynak olarak paylaşılmıştır [1]. Veri kümesinde hedef kolesterol değeri ile beraber 14 alt alan bulunmaktadır. Diğer alt alanlar; hastanın yaşı, cinsiyeti, göğüs ağrı tipi, dinlenme anındaki kan basıncı, kan şekeri değerinin 120 mg / dl den büyük olup olmaması, dinlenme anındaki elektrokardiografik sonucu, maksimum kalp hızı atımı, uyarılmış anjin egzersizi, dinlenme anındaki ST segment atımı, ST segment egzersizi atımı, ana damar sayısı, genel durumu, kalp rahatsızlığı olup olmamasıdır. 5.1 Genetik Algoritma Problemimizin çözümü için evrimsel süreç kullanılarak sonuç elde edilmiştir. Algoritma toplum ya da başlangıç populasyonu denilen, kromozomlarla temsil edilen bir çözüm kümesi ile başlamaktadır. Bu popülasyondaki çözüm önerileri yeni toplumların üretilmesinde kullanılmıştır. Bu işlem, yeni popülasyonun eskisinden daha iyi olması için uygunluk fonksiyonu ile belirlenen en iyi bireyleri hayatta tutup diğerlerini yok etme üzerine kuruludur. Başka bir anlamda, daha uygun olan bireyler üretim için daha fazla şansa sahip olmuştur. Bu işlemler istenen duruma erişene kadar tekrar etmiştir. [1] 5.2 Başlangıç Popülasyonu Algoritmanın başlangıcında rastgele ve farklı kromozomlar oluşturulur. Örneğin; 5 kromozom, 6 alt alan için yani 6 gen için algoritma çalıştırılmıştır. 5 7 8 10 11 12 2 3 6 10 12 13 4 6 7 8 10 11 1 2 4 8 11 13 1 3 9 10 12 13 Tablo 1. Örnek kromozomlar 5.3 Uygunluk Fonksiyonu Bu fonksiyonun en önemli hedefi kolesterol değerleri arasındaki asgari farklılıkları yakalamaktır. Sadece bu amaç tek başına yeterli değildir ve aşağıdaki gibi kötü sonuçların elde edebilme olasılığı vardır. 1000 3 4900 120 2 200 21 121 Tablo 2. Kolesterol değerlerinin yakın olmasına rağmen diğer alt alanların birbirinden çok farklı olma durumu Bu örnek yakın kolesterol değerlerine sahip 2 veri olmalarına rağmen diğer alt alan değerlerinin uyumsuz olduğu durumu göstermektedir. Bu durumlar açısından sadece kolesterol değerlerine bakmamak gerekmektedir. Uygunluk fonksiyonunu bu durumlara uyumlu hale getirebilmek için diğer alt alanları da hesaba katmak gerekmiştir. 3 189 22 300 2 200 21 121 Tablo 3. Diğer alt alanlarının değerlerinin yakın olmasına rağmen kolesterol değerlerinin birbirinden çok farklı olan iki hasta verisi Bu örnek de istenmeyen bir durumdur ve her iki durumu da sağlaması açısından uygunluk fonksiyonu (U) aşağıdaki gibi kullanılmıştır. U 1-2 = x C 1 C 2 (1) Öklit fonksiyonuna göre iki veri arasındaki vektörel uzaklıkla kolesterol farklarının ( C1- C2 ) çarpımı ne kadar küçükse kolesterol değeri için bu alt alanlar o kadar uygundur kabullenmesi yapılmıştır. 6. Genetik Algortima Uygulaması Uygunluk fonksiyonu aşağıdaki gibi çalışır: Örneğin ilk kromozom 5, 7, 8, 10, 11 ve 12 alt alanlarını içeren genlere sahip olsun. Tüm

veriler şekil 4 deki gibi, seçilmemiş (1, 2, 3, 4, 6, 9 ve 13) diğer alt alanlarından arındırılırlar. Bu hali ile tüm veriler için karşılıklı uygunluk fonksiyonu çalıştırılır ve Şekil 4 deki gibi bir çıktı elde edilir. Şekil 4. Verilerin sadece 5, 7, 8, 10, 11, 12 ve kolesterol alt alanları ile ele alınması Bu aşamadan sonra 303x303 alana sahip bir benzerlik matrisi oluşturulur ve içi uygunluk fonsiyonundan çıkan sayılarla doldurulur. Benzerlik değerlerinin tutulduğu bu matriste diagonale göre üst ve alt değerlerin tekrarlanmasından ötürü, her bir kromozom önerisi için sadece diagolanin alt kısmındaki sayıların tümü ile toplam uygunluk değerleri elde edilir. Bu sayılar daha sonra normalize edilmesi adına aritmetik ortalama ile anlaşılır sayılara indirgenir (Tablo 4). 5 7 8 10 11 12 2 3 6 10 12 13 4 6 7 8 10 11 1 2 4 8 11 13 1 3 9 10 12 13 239 1902 345 700 283 Tablo 4. Örnek kromozomlara karşılık gelen uygunluk değerleri Uygunluk fonksiyonundan çıkan değerlerin küçük olması bize kromozomun uygunluğunu göstermekteydi. Bu nedenle elimizdeki örnekten yola çıkarsak 239 çıkan 1. kromozom ve 283 çıkan 5. kromozon çaprazlama geçiş (Cross-Over) tekniklerinden geçirilerek 2 ayrı yeni birey elde edilmiş ve popülasyondaki en kötü uygunluğa sahip 2 birey (örneğimizde 1902 ile 2. Koromozom ve 700 ile 4. kromozom) popülasyondan çıkarılmıştır. Çaprazlama geçişinde, en iyi iki bireyin ortak genleri sabit tutularak (örneğimizde 10 ve 12) diğer genleri rastgele belirleme ile yeni bireyleri elde etme yöntemi kullanılmıştır. Çaprazlama geçiş tekniği dışında, rastgele anlarda, en iyi 2 birey ve onların da oluşturduğu diğer 2 birey olmayan bireylerden rastgele seçilen bireylerin rastgele genlerinde Mutasyon tekniği uygulanarak yerel optimal (Local Optimum) probleminden kaçınılmıştır. 6.1 Genetik Algoritma Sonuçları Uygulamamızı 14 alt alandan kolesterol değerini etkileyen en baskın 6 alt alanı bulma adına şu parametrelerle çalıştırdık; çaprazlama geçiş sonucunda 3 yeni birey oluşsun, en kötü 3 birey popülasyondan çıksın ve 10 bireyli bir popülasyon olsun. 10 bireyin optimal uygunluğa erişmesi 44 nesil sonra gerçekleşmiş ve algoritma 44 nesil sonra sonlanmıştır. Her nesil sonucu oluşan uygunluk değerleri her birey için çıktı olarak da uygulama da daha sonra analiz edilebilmesi için verilmiştir (Şekil 5). Şekil 5. Uygulamanın Çıktısı Şekil 6 da görüldüğü gibi tüm kromozomlar 44 üncü nesile gelene kadar uygunluk değerleri 124 ile 6000 aralığında değişim göstermektedir. 44 e yaklaştıkça da değişim

dengeli olmaya başlamış ve 123.88 de optimal olarak kabullenip program sonlanmıştır. Bu sonuca göre kolesterol sonuçlarını etkileyen baskın alt alanlar hastanın yaşı, cinsiyeti, dinlenme anındaki kan basıncı, maksimum kalp hızı atımı, dinlenme anındaki ST segment atımı, ST segment egzersizi atımı şeklinde elde edilmiştir. 8. Kaynaklar [1] Grefenstette, J.J., "Genetic Algorithms and Their Applications", Proceedings of the Second International Conference on Genetic Algorithms, UK (2013). [2] Jain, A.,K., Data clustering: 50 years beyond K-means, ELSEVIER 19th International Conference in Pattern Recognition (ICPR), 31(8), 651 666, (2010). [3] Kohonen, T., "The self-organizing map", Proceedings of the IEEE, 78(9): 1464-1480 (1990). [4] Liu, Y., Weisberg, R.H., "A review of self-organizing map applications in meteorology and oceanography." In: Self- Organizing Maps-Applications and Novel Algorithm Design, 253-272. (2011). Şekil 6. Kromozomların nesil ilerledikçe uygunluk değerlerinin değişim grafiği 7. Sonuç Akademik bilişim alanında disiplinler arası çalışmalar kaçınılmazdır. Özellikle ülkemizin tıbbi verileri işleme konusunda eksiklikleri göz önüne alınırsa tıp alanı ile bilişim alanlarının bir araya gelmesi mutlaka teşvik edilmeli ve gerekli sınırlar dahilinde akademik çerçevede açık kaynak olarak tıbbi veriler erişilebilir olmalıdır. Verilerin güvenilirliği açısından da HBYS içinde tutulan her verinin doğruluğundan emin olunmalı ve bu konuda da gerekli düzenlemeler yapılmalıdır. Örnek uygulamalarımız ile tıp alanıyla beraber başarılı akademik bilişim çalışmalarının yapılabilirliği gösterilmek istenmiştir. SOM ve K-Means kümeleme yöntemleri ile bir karar destek sistemi yapılmak istenirken, genetik algortima ile baskın alt alanların keşfi hedeflenmiştir. [5] ODTÜ Sağlık ve Rehberlik Merkezi, http://www.mc.metu.edu.tr/labtest.html (2013). [6] Polczynski, Mark ve Michael, "Using the k-means Clustering Algorithm to Classify Features for Choropleth Maps", The International Journal for Geographic Information and Geovisualization, 49(1), 68-75 (2014). [7] Robab, S., Sim, A.,T.,H., Hosein, J., "Application of Self Organizing Map for Knowledge Discovery Based in Higher Education Data", Research and Innovation in Information Systems, 2011 International Conference on. IEEE, (2011). [8] Wager, K.,A., Lee, F.,W., Glaser, J.,P., "Health Care Information Systems: A Practical Approach for Health Care Management Third Edition", USA (2013).