Zamansal Veri Madenciliği ve Anomali Tespiti için Bir Uygulama Mehmet Yavuz ONAT Yrd.Doç.Dr.Engin YILDIZTEPE Dokuz Eylül Üniversitesi, İstatistik Bölümü Akademik Bilişim 2015, Anadolu Üniversitesi, Eskişehir 6 Şubat, 2015
Çalışmanın Amacı Kesit anomalilerin tespiti Uygulama: Euro-Dolar paritesi verilerinde anomali tespiti
Sunum Planı Zamana Bağlı Değerler Zamansal Veri Madenciliği Veri Temsil Yöntemleri Anomali Tespiti Uygulama Referanslar
Zamana Bağlı Değerler Zaman Serileri Zamana Bağlı Diziler (Temporal Sequences) Anlamsal Zamana Bağlı Değerler (Semantic Temporal Data) Zamansal veri madenciliği zamana bağlı değerlerden oluşan bir veri seti ile veya bu veri setlerinden oluşan bir veritabanı ile ilgilenir. (Mitsa, 2010)
Zamansal Veri Madenciliği Zamansal veri madenciliği, veri madenciliği temelleri içerisinde zaman serilerinin karakterlerine uygun yöntemleri kullanır. Zamansal veri madenciliği istatistiksel yöntemlerdeki varsayımlara gerek duymadan zamana bağlı veriler içerisinden anlamlı bilgiler çıkarmayı amaçlar. Zaman serilerinden oluşan bir veri tabanında benzer zaman serilerinin bulmayı veya bir zaman serisi içerisinde geçekleşen olağan dışı desenleri belirlemeyi hedefler.
Zamansal Veri Madenciliği Yöntemleri Endeksleme (Indexing - Query by Content) Sınıflama (Classification) Kümeleme (Clustering) Anomali Tespiti (Anomaly Detection)
Veri Temsil Yöntemleri Zaman Serisi Temsil Yöntemleri (Keogh ve ark., 2005) Piecewise Aggregate Approximation (PAA) Symbolic Aggregate approximation (SAX)
Piecewise Aggregate Approximation PAA Temsil Yöntemi Zaman serisini sabit uzunluktaki kesitlere ayırarak, her bir kesiti ortalaması ile temsil etmeyi amaçlar. (Keogh ve ark., 2001 )
Symbolic Aggregate approximation SAX Temsil Yöntemi PAA üzerinden geliştirilen SAX, vektör halindeki temsil edilmiş veriyi sembollere dönüştürmeyi amaçlar. (Lin ve ark, 2003) SAX temsil yönteminin izlediği adımlar Normalleştirme PAA ile boyut indirgeme Sembolik dönüşüm
Symbolic Aggregate approximation Standart Normal Dağılım ve Kesme Noktaları c i = PAA ile elde edilen ortalama değerleri β = (β 1, β 2) seçilen 3 karakter için elde edilen kesme noktaları a; c i < β 1 Sembol = b; β 1 < c i < β 2 c; c i > β 2
Kesit Anomaliler Bir zaman serisinin kesitleri içerisinden kendisi ile eşleşmeyen en yakın komşusuna en büyük uzaklığa sahip olan kesit uyumsuz-anomali olarak belirlenir.(keogh ve arkadaşları, 2006) Literatürde kesit anomali tespiti üzerine bir çok çalışma bulunmaktadır; Online novelty detection on temporal sequences (SVR-Based), Ma ve Perkins, 2003. Finding the most unusual time series subsequence: algorithms and applications (HOT-SAX), Keogh ve ark., 2006. Finding Time Series Discords Based on Haar Transform (WAT), Fu ve ark., 2007.
HOT-SAX Algoritması Heuristically Ordered Time series using Symbolic Aggregate approximation. (Keogh ve ark., 2006) İhtiyaç duyulan tek parametre araştırılacak olan kesitin büyüklüğüdür. HOT-SAX bruteforce kullanarak, zaman serisi içerisinde gözlemlenen her kesiti kendisi ile eşleşmeyen bütün kesitlerle karşılaştırır. Zaman serisinin içerisindeki tüm kesitlerin benzerlik ölçümlerini yaparak anomali tespiti yapmaya çalışır.
HOT-SAX Algoritması HOT-SAX temsil yöntemi alttaki adımları izler Zaman serisi SAX yöntemi ile temsil edilir. Kesitlere verilen sembollerden desenler elde edilir. Oluşan desenlerden en az sayıda olanlar anomali adayı olarak seçilir. Seçilen adayların kendisi ile eşleşmeyen bütün kesitlere olan uzaklığı hesaplanır. En yakın komşusuna olan uzaklığı en fazla olan kesit anomali olarak belirlenir. Kendisi ile eşleşmeyen kesitler (non-self match): M ve K bir zaman serisinden seçilen m boyutunda kesitler ve başlangıç noktaları p ve q olsun. M K nın kendisi ile eşleşmeyen kesiti ise p q m olması beklenir.
Uygulama Aralık 2003 Aralık 2014 tarihleri arasındaki Euro-Dolar parite değerleri Zaman serisi European Central Bank web sayfasından günlük (iş günü) kaydedilen verilerden alınmıştır. 2820 günlük Euro/Dolar parite değeri incelenmiştir. R istatistiksel proglamlama dili kullanılmıştır.
Uygulama Zaman serisinin sembolik gösterimi için dört karakter (a,b,c,d) tercih edilmiştir. PAA için genişlik 10 gün seçilmiştir. Her üç alt kesitin bir dönemi temsil ettiği belirlenmiştir. SAX temsil yöntemi sonrasında her 30 günlük dönem 3 karakter ile temsil edilmiştir.
Uygulama Zaman serisinden 8373 alt kesit elde edilmiş ve 2791 dönem HOT-SAX algoritması ile incelenmiştir. Tüm Dönemler Desen Tekrar Sayısı aaa 524 ddd 515 cbb 86 aac 1 bac 1 Anomali Adayları Desen Başlangıç Bitiş aac 16.02.2009 27.03.2009 bac 13.02.2009 26.03.2009 Anomali adaylarının en yakın komşularına olan uzaklıkları hesaplanmış ve aac deseni anomali olarak belirlenmiştir.
Uygulama 2009 yılına ait değerler ve bulunan anomali Bulunan anomali kesiti 2009 yılı içerisinde doların en yüksek olduğu zaman aralığını içermektedir.
Anomali Aralığında Gerçekleşen Ekonomik Olaylar Anomali olarak belirlenen desen Uluslararası finansal kriz karşısında ülkeler tarafından alınan önlemler incelenmiştir. 15 Mart 2009 haftasında FED beklenmeyen bir kararla 6 ay içinde, hükümetten 300 milyar dolara kadar uzun dönemli borç tahvili alacağını açıklamıştır.
Referanslar Chandola, V., Grumbach, A., Kumar, C., Anomaly Detection: A survey, ACM Computing Surveys, 41(3), (2009). Esling, P., Agon, C., Time-series data mining, ACM Computing Surveys, 45(1),(2012). European Central Bank Web Site, https://www.ecb.europa.eu/stats, Erişim tarihi: 10.12.2014. Fu, T., A review on time series data mining, Engineering Applications of Artificial Intelligence, 24, 164:181(2011). Fu, A.W., Leung, O.T., Keogh, E., Lin, J., Finding Time Series Discords Based on Haar Transform, Advanced Data Mining and Applications, 4093, 31:41(2007). Keogh, E., Chakrabarti, K., Pazzani, M., and Mehrotra, S., Dimensionality reduction for fast similarity search in large time series databases, Knowledge and Information Systems, 3(3), 263:286(2001).
Referanslar Keogh, E., Lin, J., Lee, S.H., Herle, H.V., Finding the most unusual time series subsequence: algorithms and applications, Knowledge and Information Systems, 11(1), 1:27(2006). Lin, J., Keogh, E., Leonardi, S., and Chiu, B., A symbolic representation of time series, with implications for streaming algorithms, In Proceedings of the 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery,2:11(2003). Lin, J.,Keogh, E., Wei, L., Lonardi, S., Experiencing SAX: a novel symbolic representation of time series, Data Mining and Knowledge Discovery, 15(2), 107:144(2007). Ratanamahatana, C. A., Lin, J., Gunopulos, D., Keogh, E., Mining time series data, Data Mining and Knowledge Discovery Handbook, 1069:1103(2005). Türkiye Bankalar Birliği, Bankacılık ve Araştırma Grubu, Uluslararası Finansal Kriz Karşısında Ülkeler Tarafından Alınan Önlemler Kronolojisi, Bankacılar Dergisi, 69, 86:93(2009).
Teşekkürler!