COĞRAFİ BİLGİ SİSTEMLERİ YARDIMIYLA TRAFİK KAZALARININ TESPİTİNDE YENİ BİR VERİ ÖLÇEKLEME YÖNTEMİ: KOMŞU TABANLI ÖZELLİK ÖLÇEKLEME (KTÖÖ) Kemal Polat 1 1 Elektrik-Elektronik Mühendisliği Bölümü Abant İzzet Baysal Üniversitesi kemal_polat2003@yahoo.com ÖZET Günlük yaşamımızda trafik kazaları yoğun bir şekilde olmakta ve yaşamımızı etkilemektedir. Trafik kazaları, genel olarak kazanın yapıldığı güne, sıcaklığa, neme, hava şartları gibi etmenlere bağlıdır. Bu çalışmada, coğrafi bilgi sistem platformu yardımıyla Konya-Afyonkarahisar anayolu üzerindeki trafik kazalarını tespit etmek için komşu tabanlı özellik ölçekleme (KTÖÖ) olarak adlandırılan yeni bir yöntem önerildi. Ölçeklenmiş trafik kazaları veri kümesini ya kazalı ya da kazasız olarak sınıflamak için destek vektör makineleri(dvm) kullanıldı. ölçekleme yönteminin temel amacı, lineer olarak ayrılamayan bir dağılıma sahip veri kümesini lineer olarak ayrıştırılabilir bir hale dönüştürmek ve ayrıca sınıflar arasındaki ayrışımı arttırmaktır. Sonuçlar gösteriyor ki önerilen komşu tabanlı özellik ölçekleme yöntemi, Konya-Afyonkarahisar anayolundaki trafik kazalarının sınıflandırılmasında umut vadeden sonuçlar elde etmiştir. Anahtar Kelimeler: Trafik kazaları tespiti, komşu tabanlı özellik ölçekleme, destek vektör makineleri 1. GİRİŞ Son zamanlarda, taşıma sistemlerinin geliştirilmesinin en olumsuz sonucu, kazalı ve hayat kayıplı kazalardır. Trafik kazaları, büyük sosyal ve ekonomik maliyetlere neden olmuştur [1], [2], [3]. Bu yüzden, trafik güvenliği, şirketlerin taşıma stratejisi için en önemli konulardan birisidir. Anayollarda yetersiz alanların tanımlanması ve trafik yetkilileri ve araştırmacıların hangi gerekli ölçümleri ve önlemleri alması gerektiği araştırmalıdır [3], [4]. Konya- Afyonkarahisar anayolundaki trafik kazalarının tespitinde Coğrafi Bilgi Sistemleri (CBS) kullanılmıştır. Bu sistem sayesinde, kazanın yapıldığı yere ait sıcaklık, nem, hava şartları ve tarih bilgileri edinilmiştir. Coğrafi Bilgi Sistem teknolojileri, son zamanlarda anayollardaki trafik kazalarını tespit ve analiz etmek için en çok kullanılan araç oldu. CBS, kolaylıkla yüklenen, paylaşılan, analiz edilen ve yönetilen büyük verileri tutma özelliğine sahiptir. CBS, hem ayrık veri analizi için hem de ayrık ve ayrık-olmayan veri arasındaki ilişkileri göstermek için bir platform sağlar [2], [3], [4]. Trafik kazalarının azaltılmasında güvenlik geliştirme programlarının başarısı, trafik analizinde kullanılan yöntemlere bağlıdır. Birçok araştırmacı, son zamanlarda anayollarda yüksek oranlı kaza yerleri ve güvenlik yetersiz alanlarını belirlemeyi amaçlayan çalışmalarda farklı deterministik ve istatistiksel yöntemler kullandılar [2], [3], [4], [5], [6]. Bu araştırmacıların birçoğu, yol parçalarının tasarımı ve işlenmesi ve trafik kazaları arasındaki ilişkileri incelediler. Kazalar ile ilgili veriler geniş bir şekilde kullanılmasına rağmen, fakat hava ile ilgili çok az analiz yapılmıştır. Yol kazaları, karmaşık bir sürücü-araç ortam matrisinin sonuçları olduğu için, trafik kazalarında kesin neden-sonuç ilişkisinin kurulmasında içeren komplekslik bir engel olarak görülür [2], [3], [5]. Bu çalışmada, CBS yardımıyla Konya-Afyonkarahisar anayolundaki trafik kazaları ya kazalı ya da kazasız olarak sınıflamak için komşu tabanlı özellik ölçekleme (KTÖÖ) olarak adlandırılan yeni bir özellik ölçekleme yöntemi önerildi ve destek vektör makineleri ile birleştirilerek trafik kazaları veri kümesi sınıflandırıldı. KTÖÖ yönteminin yanı sıra trafik kazaları veri kümesinin ham hali ve maksimum değer normalizasyon yöntemi ile normalize edilmiş durumları kullanıldı ve destek vektör makineleri ile birleştirilerek trafik kazaları veri kümesi sınıflandırıldı. Oluşturulan üç sistem ve elde ettikleri sınıflama doğrulukları şu şekildedir: trafik kazaları veri kümesinin ham hali ile DVM nin birleşimi (%51.59), normalizeli trafik kazaları veri kümesi ile DVM nin birleşimi (%52.81) ve ölçeklenmiş trafik kazaları veri kümesi ile DVM nin birleşimi (%66.85). Elde edilen sonuçlar gösteriyor ki KTÖÖ yöntemi güvenli bir biçimde Konya- Afyonkarahisar anayolundaki trafik kazalarının tespitinde kullanılabilir. 2. MATERYAL: TRAFİK KAZALARI VERİ KÜMESİ Konya- Afyonkarahisar anayoluna ait trafik kazaları veri kümesi, trafik kazasının meydana geldiği gün, sıcaklık, nem, hava şartları ve ay olmak üzere beş özellikten oluşur. Veri kümesi, 179 trafik kazalı, 179 u trafik kazasız olmak üzere toplam 358 veriden oluşmaktadır. Konya-Afyonkarahisar anayolu, endüstriyel, turizm ve tarımsal alanları birbirine bağlayan Türkiye deki bir kesişim alanıdır. Şekil 1, Türkiye deki Konya-Afyonkarahisar anayolunu göstermektedir. Şekil 1 den görüleceği üzere, özellikle kışın bölgedeki karasal iklimden dolayı kazalar sıklıkla meydana gelmektedir. Anayolunun uzunluğu yaklaşık olarak 240 km dir. Yolun %65 i çift yoldur. Anayola ait trafik kazaları raporları, Bölge Karayolları yetkili görevlisinden kâğıt olarak alınmıştır. Bu kayıtlar, gün, saat/dakika, çarpışmanın hızı, anayolun kodu, yaş, cinsiyet, sürücünü alkol tüketim ölçümleri, hava şartları, ışık durumları, yaralanan/ölen kişilerin sayıları gibi kaza parametreleri içermektedir. Trafik kazaları veri kümesi, lineer olarak ayrılamayan bir sınıf dağılımına sahiptir, bu yüzden bu veri kümesinin sınıflandırılması zor bir görevdir [10]. 143
Elektrik-Elektronik ve Bilgisayar Sempozyumu 2011 Şekil 1: Türkiye deki Konya-Afyonkarahisar anayolu [2] Kaza olaylarında, çevre ve hava şartlarının etkilerinin belirlenmesiyle kazaların sayısını azaltmak için, CBS ye dayanan çalışmalar, trafik kazası verileri kullanılarak yapıldı. Bu çalışmadaki 179 kazalı ve 179 kazasız kayıtlar, 2006 yılına aittir ve Bölge Trafik Müdürlüğünden toplandı [2], [3], [4, 10]. 3. METOT: TRAFİK KAZALARI VERİ KÜMESİ 3.1. Önerilen Yöntemin Blok Diyagramı ve Açıklaması Konya-Afyonkarahisar anayolundaki trafik kazalarını sınıflamak için yeni bir veri ölçekleme yöntemi önerildi ve destek vektör makineleri birleştirilerek trafik kazaları veri kümesi ya kazalı ya da kazasız olarak sınıflandırıldı. Önerilen sisteme ait blok diyagramı Şekil 2 de gösterilmektedir. 3.2. Veri Ön-işleme Aşaması: Komşu Tabanlı Ölçekleme (KTÖÖ) ölçekleme işlemi, sınıflama doğruluğu ve düşük hesaplama maliyetinden dolayı örüntü tanıma ve tahmin problemlerini çözmek için önemli bir etkiye sahiptir. Veri veya özellik ölçekleme yöntemleri, veri kümesinin her bir özelliğini belirli bir aralık içerisinde sıkıştırmak için kullanılırlar. Bu sıkıştırmanın yapılmasıyla, hem hesaplama maliyeti azalır hem de sınıflar arasındaki ayrışım artabilir [9]. Bu çalışmada, ilk olarak, her bir özelliğe ait toplam öklit mesafesi, veri kümesindeki her bir özellik içerisindeki veriler arasındaki öklit mesafelerinin hesaplanmasıyla bulunur. Daha sonra, veri kümesindeki verinin ölçeklenmiş değeri, özellik içerisindeki her bir verinin o özelliğe ait toplam öklit mesafesine bölünmesiyle elde edilir. Bu önerilen yöntem, komşu tabanlı özellik ölçekleme olarak adlandırılır. Önerilen özellik ölçekleme yönteminin blok diyagramı Şekil 3 de gösterilmektedir. Yöntem şu şekilde çalışır [9]: Bir A veri kümesi, n özellik ve m veriden oluşsun. Y, A veri kümesinin çıkış değişkeni olsun. kümesi; x1 ( 1), x2 (2),..., xn ( m) ve Y çıkış değişkeni ise Y1 ( 1), Y2 (2),..., Yn ( m) olsun. KTÖÖ yöntemi veri kümesine uygulandıktan sonra, yeni oluşan özellik değerleri ( X1( 1), X 2 (2),..., X n ( m) ) şu şekilde hesaplanır (denklem 1): xi, j Xi, j = (1) Toplam Öklit Mesafesi j X i, j, veri kümesinin yeni özellik değeridir, x i, j, veri kümesinin eski özellik değeridir ( i = 1,2,..., n ve j = 1, 2,..., m için). i, özelliğin ham değeri; j, özellik sayısıdır. Trafik kazaları veri kümesinin yüklenmesi Her bir özellikteki veriler arasındaki toplam öklit mesafesinin hesaplanması Her bir özellikte, her bir özelliğe ait toplam öklit mesafelerinin her bir özellikteki verilere bölünmesi Her bir özelliğe ait bu oranları (bölümlerin) hesaplanmasıyla özellik ölçekleme işleminin gerçekleştirilmesi Şekil 2: Önerilen sistemin blok diyagramı Şekil 3: Önerilen komşu tabanlı özellik ölçekleme yönteminin blok diyagramı 144
KTÖÖ yönteminin üstünlüğü daha iyi görebilmek için maksimum değer normalizasyon yöntemi kullanılmıştır. Bu yöntem kısaca aşağıda anlatılmıştır. Normalizasyon Yöntemi: Bu normalizasyon yönteminde, veri kümesinde her bir özelliğin maksimum değerleri bulunur. Daha sonra, her bir özellik içerisindeki veri kendi maksimum değerine bölünür ve bu yolla veri normalize edilir. Yöntem şu şekilde çalışır: Bir A veri kümesi, n özellik ve m veriden oluşsun. Y, A veri kümesinin çıkış değişkeni olsun. kümesi; x1 ( 1), x2 (2),..., xn ( m) ve Y çıkış değişkeni ise Y1 ( 1), Y2 (2),..., Yn ( m) olsun. değer normalizasyonu veri kümesine uygulandıktan sonra, yeni oluşan özellikler ( X1( 1), X 2 (2),..., X n ( m) ) şu şekilde hesaplanır (denklem 2): xi, j Xi, j = (2) Degerj aşamada ise destek vektör makineleri kullanılmıştır. Eğitme ve test veri kümesi ayrımları rastgele olarak toplam veri kümesinin %50 si eğitme veri kümesi ve %50 si ise test veri kümesi olarak yapılmıştır. Önerilen sistemin başarısını test etmek için sınıflama doğruluğu, hassasiyet, seçicilik ve f- ölçümü değerleri kullanılmıştır. Şekil 4, ham trafik kazaları veri kümesi ve KTÖÖ ile yöntemi ile ölçeklenmiş trafik kazaları veri kümesinin kutu grafik gösterimlerini vermektedir. Kutu-grafik gösteriminde, kırmızı nokta her bir özelliğe ait medyan değerini ve medyandan sonraki değerler de veriye ait %25 ve %75 lik dilimleri göstermektedir. Şekil 5 ise trafik kazaları veri kümesinin ilk üç özelliğine göre ham veri kümesinin dağılımını göstermektedir. Şekil 6, KTÖÖ ile ölçeklenmiş trafik kazaları veri kümesinin ilk üç özelliğe göre sınıf dağılımlarını göstermektedir. X i, j, veri kümesinin yeni özellik değeridir, x i, j, veri kümesinin eski özellik değeridir ( i = 1, 2,..., n ve j = 1,2,..., m için). i, özelliğin ham değeri; j, özellik sayısıdır. 3.3. Destek Vektör Makineleri (DVM) Destek vektör makineleri, Vapnik tarafından önerilen lineer olmayan problemleri çözmek amacıyla oluşturulmuş istatistiksel bir öğrenme yöntemidir [7], [8]. DVM, genellikle kernel tabanlı öğrenmede son zamanlarda birçok yeniliğe neden olan yoğunluk tahmini ve ayrıca lineer olmayan sınıflama fonksiyon tahmin problemlerinin çözümünde güçlü bir yöntemdir. DVM genel olarak iki sınıflı bir sınıflandırıcıdır ve verilen bir örüntü değerini özelliklerine göre iki kategoriye ayrılır [7], [8]. DVM sınıflandırıcıda, bir tahmin değişkeni özellik olarak adlandırılır ve hiper düzlemi tanımlamak için kullanılan bir özellik, karakterize edilmiş bir özellik olarak adlandırılır. DVM sınıflandırıcı, lineer olarak ayrılamayan veri kümelerinin sınıflandırılmasında kernel fonksiyonları (RBF, lineer ve MLP gibi) kullanırlar [7], [8]. Bu sayede, lineer olarak ayrılamayan bir veri kümesi daha yüksek boyutlu ve lineer olarak ayrılabilir bir dağılıma dönüştürülmüş olur. Bu çalışmada, kernel fonksiyonu olarak RBF (Radial Basis Function) kernel kullanıldı ve DVM deki parametre ayarları deneme-yanılma yoluyla belirlendi. Kernel fonksiyonunda, gama değeri 100 olarak, sigma değeri de 0.9 olarak seçildi. Şekil 4: Ham trafik kazaları veri kümesi ve KTÖÖ ile yöntemi ile ölçeklenmiş trafik kazaları veri kümesinin kutu grafik gösterimleri 4. DENEYSEL SONUÇLAR VE ÖNERİLER Bu bildiride, coğrafi bilgi sistemleri yardımıyla oluşturulan verilere dayanarak Konya-Afyonkarahisar anayolundaki trafik kazaları veri kümesi, komşu tabanlı özellik ölçekleme yöntemi ve destek vektör makineleri sınıflandırıcının birleşimi ile oluşturulan hibrid sistem ile ya kazalı ya da kazasız olarak sınıflandırıldı. Veri ön-işleme olarak önerilen komşu tabanlı özellik ölçekleme yöntemi, her bir özellik için veriler arasındaki mesafe ve komşuluğa dayanan yeni bir veri ölçekleme yöntemidir. Bu yöntemin kullanılma ve oluşturulma amacı, lineer olarak ayrılamayan veri kümelerini lineer olarak ayrılabilir bir hale dönüştürmek ve sınıf içerisindeki verileri bir araya toplamaktır. Bu çalışma iki aşamadan oluşmaktadır. İlk aşamada veri ön-işleme aşaması ikinci aşama ise sınıflama aşamasıdır. Birinci aşamada, KTÖÖ yönteminin yanı sıra maksimum değer normalizasyon yöntemi kullanılmıştır. İkici 145
Elektrik-Elektronik ve Bilgisayar Sempozyumu 2011 ayrılabilir bir hale dönüştürmüştür. Bu yöntem trafik kazalarının önlenmesi ve sınıflandırılmasında güvenli bir şekilde kullanılabilir. Gelecekte, hava ve ortam şartlarına göre CBS nin yardımıyla daha fazla bilgi toplanarak çevrimiçi bir akıllı sistem tasarlanabilir. Tablo 1: Trafik kazaları veri kümesinin istatistiksel değerleri (ön-işlemesiz) 1 1 7 4,23 1,97 2-4 29 14,36 8,31 3 20 91 53,53 21,74 4 1 5 2,502 1,29 5 1 12 7,74 3,16 Tablo 2: değer normalizasyon yöntemi ile normalize edilmiş trafik kazaları veri kümesinin istatistiksel değerleri (normalizeli) Şekil 5: İlk üç özelliğe göre ham trafik kazaları veri kümesinin sınıf dağılımı 1 0 1 0,538 0,32 2 0 1 0,558 0,259 3 0 1 0,475 0,308 4 0 1 0,375 0,324 5 0 1 0,613 0,287 Tablo 3: KTÖÖ ile ölçeklenmiş trafik kazaları veri kümesinin istatistiksel değerleri (ölçeklenmiş) 1 0,027 0,26 0,138 0,07 2 0,0269 1,007 0,459 0,262 3 0,149 0,698 0,405 0,164 4 0,081 0,449 0,213 0,118 5 0,301 3,618 2,33 0,953 Tablo 4: Üç hibrid yöntem kullanılarak trafik kazaları veri kümesinin sınıflandırılması elde edilen değerler Kullanılan Yöntem 1. Ham trafik kazaları verisi ile DVM sınıflama S.D. Seçi. Hass. F- (%) (%) (%) ölçümü 51.69 50.85 100 0.065 Şekil 6:İlk üç özelliğe göre KTÖÖ ile ölçeklenmiş trafik kazaları veri kümesinin sınıf dağılımı Tablo 1, ham trafik kazaları veri kümesinin istatiksel değerleri (minimum değer, maksimum değer, ortalama değer ve standart sapma) vermektedir. Tablo 2, maksimum değer normalizasyon yöntemi ile normalize edilmiş trafik kazaları veri kümesinin istatiksel değerlerini göstermektedir. Tablo 3 ise, KTÖÖ ile ölçeklenmiş trafik kazaları veri kümesinin istatistiksel değerlerini göstermektedir. Tablo 4, üç hibrid sistem kullanılarak elde edilen sonuçları (sınıflama doğruluğu, hassasiyet, seçicilik ve f-ölçümü) göstermektedir. Bu sonuçlardan görüldüğü gibi, önerilen komşu tabanlı özellik ölçekleme yöntemi en iyi sonucu elde etmiş ve lineer olarak ayrılamayan trafik kazaları veri kümesini daha kolay 2.Ölçeklenmiş trafik kazaları verisi ile DVM sınıflama 66.85 67.44 68.69 0.685 3.Normalize edilmiş trafik kazaları verisi ile DVM sınıflama 52.81 51.70 58.06 0.3 Not: S.D.: Sınıflama Doğruluğu; Seçi.: Seçicilik; Hass.: Hassasiyet değerlerini göstermektedir. TEŞEKKÜR Trafik kazaları veri kümesini sağlamada yardımcı olan Doç. Dr. S. Savaş Durduran a çok teşekkür ederiz. 146
5. KAYNAKLAR [1] WHO, WHO Injury Chart BookDepartment of InjuriesandViolencePreventionNoncommunicableDiseas esandmentalhealth Cluster, World HealthOrganization, Geneva, 2002. [2] Polat, K., Durduran, S.S., Ensemble of Classifiers for Intelligent Recognition of Traffic Accidents using Geographical Information Systems platform, ISCSE 2010, 636-642, June 3-5, Aydın, 2010. [3] Durduran, S.S., A decision making system to automatic recognize of traffic accidents on the basis of a GIS platform, Expert Systems with Applications, 37(12), 7729-7736, 2010. [4] WRTIP, The World Report on Traffic Injury Prevention 2004. The Fundementals, Chapter One, Geneva, 2004. [5] WHO, WHO Injury Chart Book Department of InjuriesandViolencePreventionNoncommunicableDiseas esandmentalhealth Cluster, World Health Organization, Geneva, 2002. [6] Sawalha Z. andsayed D., Transferability of accident prediction models, Safety Science, Vol. 44: 209-219, 2006. [7] Corinna Cortesand V. Vapnik, "Support-Vector Networks", Machine Learning, 20, 1995. [8] Polat, K., Güneş,S., Breast cancer diagnosis using leasts square support vector machine, Digital Signal Processing, 17(4), 694-701, 2007. [9] Polat, K., A novel data preprocessing method to estimate the air pollution (SO2): neighbor-based feature scaling (NBFS), Neural Computing & Applications, Basımda, 2011, DOI: 10.1007/s00521-011-0602-x. [10] Polat, K., Durduran, SS., Subtractive clustering attribute weighting (SCAW) to discriminate the traffic accidents on Konya Afyonkarahisar highway in Turkey with the help of GIS: A case study, Advances in Engineering Software, 42(7), 2011, 491-500. 147