Zamansal Veri Madenciliği ve Anomali Tespiti için Bir Uygulama

Benzer belgeler
Zamansal Veri Madenciliği ve Anomali Tespiti için Bir Uygulama. Temporal Data Mining and an Application for Anomaly Detection

A. SCI ve SCIE Kapsamındaki Yayınlar

VERİ MADENCİLİĞİNE BAKIŞ

Kümeleme Algoritmaları. Tahir Emre KALAYCI

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

DOKUZ EYLÜL ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MÜDÜRLÜĞÜ DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: CSE 5072

Bulanık Mantık Tabanlı Uçak Modeli Tespiti

K-En Yakın Komşu Algoritması Parametrelerinin Sınıflandırma Performansı Üzerine Etkisinin İncelenmesi

A New Gesture Recognition System Using Weighted Dynamic Time Warping and Symbolic Aggregation Approximation Methods on Skeleton Data

T.C. ERCİYES ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ EĞİTİM ÖĞRETİM YILI DERS KATALOĞU

Türkçe Dokümanlar Ġçin Yazar Tanıma

Yönetim Bilişim Sistemleri (Karma) - 1. yarıyıl Hukukun Temelleri Fundamentals of Law TR

Apriori Algoritması ile Teknik Seçmeli Ders Seçim Analizi

Kelime Gösterimleri (Word Representation Word Embeddings)

Ö Z G E Ç M İ Ş. 1. Adı Soyadı: Mustafa GÖÇKEN. 2. Doğum Tarihi: 12 Haziran Unvanı: Yrd. Doç. Dr. 4. Öğrenim Durumu: Ph.D.

YÖNETİM BİLİŞİM SİSTEMLERİ BÖLÜMÜ YENİ DERS MÜFREDATI (1) FAKÜLTESİ: İŞLETME FAKÜLTESİ / BUSINESS SCHOOL

APRİORİ ALGORİTMASI İLE TEKNİK SEÇMELİ DERS SEÇİM ANALİZİ SELECTION BEHAVIOR ANALYSIS OF TECHNICAL ELECTIVE COURSES USING APRIORI ALGORITHM

BLM 4811 MESLEKİ TERMİNOLOJİ II Salı , D-109 Dr. Göksel Biricik

Görev Unvanı Alan Üniversite Yıl Prof. Dr. Elek.-Eln Müh. Çukurova Üniversitesi Eylül 2014

YAPAY ZEKA (Artificial Intelligence)

APRIORI ALGORİTMASI İLE ÖĞRENCİ BAŞARISI ANALİZİ

Anadolu Üniversitesi Endüstri Mühendisliği Bölümü İST328 Yöneylem Araştırması 2 Dersi Bahar Dönemi. Hazırlayan: Doç. Dr.

World Bank Online Veritabanları

Web Madenciliği (Web Mining)

MOBİLYA PERAKENDE SATIŞ SEKTÖRÜNDE VERİ MADENCİLİĞİ UYGULAMASI

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

Uzaktan Algılama Uygulamaları

ÖNGÖRÜ TEKNĐKLERĐ ÖDEV 5 (KEY)

MathSciNet GAZİ ÜNİVERSİTESİ MERKEZ KÜTÜPHANESİ

WEB BELGELERİ KÜMELEMEDE BENZERLİK VE UZAKLIK ÖLÇÜTLERİ BAŞARILARININ KARŞILAŞTIRILMASI

HEIN ONLINE KÜTÜPHANES

İSTATİSTİKSEL TAHMİNLEME. Örneklem istatistiklerinden hareketle ana kütle parametreleri hakkında genelleme yapmaya istatistiksel tahminleme denir.

İlişkilendirme kurallarının kullanım alanları

DOKUZ EYLÜL ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MÜDÜRLÜĞÜ DERS/MODÜL/BLOK TANITIM FORMU. Dersin Kodu: CSE 5017

ÖZGEÇMİŞ VE ESERLER LİSTESİ

K-MEANS, K-MEDOIDS VE BULANIK C-MEANS ALGORİTMALARININ UYGULAMALI OLARAK PERFORMANSLARININ TESPİTİ

VERİ MADENCİLİĞİ F A T M A İ L H A N

MÜFREDAT DERS LİSTESİ

Genetik Algoritmalar (GA) Genetik Algoritmalar Đçerik Nesin Matematik Köyü E rim Ç lı l ş ı ta t yı Nisan, 2012 Mustafa Suphi Erden

Güz Dönemi Zorunlu Dersleri

VERİ MADENCİLİĞİNİN GÖREVLERİ

Apriori Algoritması. Konu İçeriği. Giriş. Tarihçesi. Apriori Nedir? Örnekler. Algoritma. Açıklama. Weka İle Kullanımı. Kaynakça.

MELİKE ŞAH DİREKOGLU

Veri Madenciliği Süreci

ELEKTRİK-ELEKTRONİK MÜHENDİSLİĞİ DOKTORA YETERLİK SINAVI YÖNETMELİĞİ

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

Dr. Hidayet Takçı. Veri Madenciliği Dersi G Y T E Dr. Hidayet Takçı 10/05/2008 1

Bilişim Sistemleri. Modelleme, Analiz ve Tasarım. Yrd. Doç. Dr. Alper GÖKSU

ANKARA ÜNİVERSİTESİ A ÖĞRENCİ İŞLERİ DAİRE BAŞKANLIĞI

MÜHENDİSLİK FAKÜLTESİ / ENSTİTÜSÜ / YÜKSEKOKULU BİLİŞİM SİSTEMLERİ MÜHENDİSLİĞİ BÖLÜMÜ /ABD LİSANS PROGRAMI - 2 ( yılı öncesinde birinci

YZM 5257 YAPAY ZEKA VE UZMAN SİSTEMLER DERS#6: GENETİK ALGORİTMALAR

1. Oracle Data Miner 11g Release 2 Kurulumu Aşamaları

inde Sepet Analizi Uygulamaları Market Basket Analysis for Data Mining

BİYOİSTATİSTİK Uygulama 4 Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

TÜRKİYE ODALAR VE BORSALAR BİRLİĞİ

CBS ve Coğrafi Hesaplama

Kansızlık Tanısına İlişkin Bir Veri Madenciliği Uygulaması

VERİ MADENCİLİĞİ. İlişkilendirme Kuralları Bulma. İlişkilendirme Kuralları. Yaygın Öğeler. İlişkilendirme Kuralları Madenciliği

Derece Alan Üniversite Yıl. Lisans İSTATİSTİK HACETTEPE ÜNİVERSİTESİ 1993

ÖZGEÇMİŞ. Dr. Aytuğ ONAN

Derece Alan Üniversite Yıl Lisans Elek.Elektonik Müh. Bilkent Üniversitesi 1993 Y. Lisans Elektrik Müh. Rutgers

BİLECİK ŞEYH EDEBALİ ÜNİVERSİTESİ AKADEMİK ÖZGEÇMİŞ FORMU

DÖVİZ KURU PARİTE DEĞİŞİMİ VE PETROL FİYATLARINDAKİ DÜŞÜŞÜN CARİ İŞLEMLER DENGESİNE ETKİSİ ( 5 Şubat 2015 ) ( Zafer YÜKSELER )

Veritabanı, Veri Madenciliği, Veri Ambarı, Veri Pazarı

Arş. Gör. Mümine KAYA

Sürelerine Göre Tahmin Tipleri

A. BIÇIME İLIŞKIN ANALIZ VE DEĞERLENDIRME

KAHKAHA TANIMA İÇİN RASSAL ORMANLAR

BİLGİ VE BELGE YÖNETİMİ BÖLÜMÜ LİSANS EĞİTİM BAHAR DÖNEMİ PROGRAMI

Web Madenciliği (Web Mining)

Yazılım Test Maliyet Fonksiyonlarının Otomatik Olarak Keşfedilmesi

BİYOİSTATİSTİK. Uygulama 4. Yrd. Doç. Dr. Aslı SUNER KARAKÜLAH

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

YÖNEYLEM ARAŞTIRMASI - III

YZM 3217 YAPAY ZEKA DERS#10: KÜMELEME

Yrd. Doç. Dr. Övünç ÖZTÜRK

Bilgiye Erişim Sistemlerinde Veri Arama ve Eşleştirme

Yrd. Doç. Dr. Tuğba ÖZACAR ÖZTÜRK

YAPAY SİNİR AĞI KULLANARAK DEPREM EĞİLİMİNİN KESTİRİMİ. Umut FIRAT

BİLİMSEL ARAŞTIRMA TEKNİKLERİ

VERİ MADENCİLİĞİ (Birliktelik Kuralları) Yrd.Doç.Dr. Kadriye ERGÜN

K En Yakın Komşu Methodu (KNearest Neighborhood)

ÖZGEÇMİŞ. Unvan Bölüm Üniversite Yıl Yrd. Doç. Dr. Yazılım Mühendisliği Bahçeşehir Üniversitesi 2007

BÖLÜM 12 STUDENT T DAĞILIMI

Adana Toplu Taşıma Eğilimleri

Metin Sınıflandırma. Akış

Görüntü Segmentasyonu (Bölütleme)

İş Zekâsı Sistemi Projesi

Yrd. Doç. Dr. Büşra ÖZDENİZCİ IŞIK Üniversitesi Enformasyon Teknolojileri Bölümü

Elena Battini SÖNMEZ Önder ÖZBEK N. Özge ÖZBEK. 2 Şubat 2007

Veri Madenciliği Yaklaşımı ile Mesleki Yönlendirme Sistemi

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

ATOS ScanBox Standartlaştırılmış Endüstriyel Otomasyon Ölçüm Sistemi

VERİ MADENCİLİĞİ İLE DEPREM VERİLERİNİN ANALİZİ

Petrol fiyatlarının istatistiksel analizi ve örüntüleri

Bilgisayar Mühendisliği

- Mali analizin Tanımı - Türlerine göre mali analiz - Değerlendirme Kuruluşları

KABA KÜME TEORİSİ (Rough Set Theory) Dr. Sedat TELÇEKEN

BÖLÜM III: Şebeke Modelleri. Şebeke Kavramları. Şebeke Kavramları. Şebeke Kavramları. Yönlü Şebeke (Directed Network) Dal / ok

Transkript:

Zamansal Veri Madenciliği ve Anomali Tespiti için Bir Uygulama Mehmet Yavuz ONAT Yrd.Doç.Dr.Engin YILDIZTEPE Dokuz Eylül Üniversitesi, İstatistik Bölümü Akademik Bilişim 2015, Anadolu Üniversitesi, Eskişehir 6 Şubat, 2015

Çalışmanın Amacı Kesit anomalilerin tespiti Uygulama: Euro-Dolar paritesi verilerinde anomali tespiti

Sunum Planı Zamana Bağlı Değerler Zamansal Veri Madenciliği Veri Temsil Yöntemleri Anomali Tespiti Uygulama Referanslar

Zamana Bağlı Değerler Zaman Serileri Zamana Bağlı Diziler (Temporal Sequences) Anlamsal Zamana Bağlı Değerler (Semantic Temporal Data) Zamansal veri madenciliği zamana bağlı değerlerden oluşan bir veri seti ile veya bu veri setlerinden oluşan bir veritabanı ile ilgilenir. (Mitsa, 2010)

Zamansal Veri Madenciliği Zamansal veri madenciliği, veri madenciliği temelleri içerisinde zaman serilerinin karakterlerine uygun yöntemleri kullanır. Zamansal veri madenciliği istatistiksel yöntemlerdeki varsayımlara gerek duymadan zamana bağlı veriler içerisinden anlamlı bilgiler çıkarmayı amaçlar. Zaman serilerinden oluşan bir veri tabanında benzer zaman serilerinin bulmayı veya bir zaman serisi içerisinde geçekleşen olağan dışı desenleri belirlemeyi hedefler.

Zamansal Veri Madenciliği Yöntemleri Endeksleme (Indexing - Query by Content) Sınıflama (Classification) Kümeleme (Clustering) Anomali Tespiti (Anomaly Detection)

Veri Temsil Yöntemleri Zaman Serisi Temsil Yöntemleri (Keogh ve ark., 2005) Piecewise Aggregate Approximation (PAA) Symbolic Aggregate approximation (SAX)

Piecewise Aggregate Approximation PAA Temsil Yöntemi Zaman serisini sabit uzunluktaki kesitlere ayırarak, her bir kesiti ortalaması ile temsil etmeyi amaçlar. (Keogh ve ark., 2001 )

Symbolic Aggregate approximation SAX Temsil Yöntemi PAA üzerinden geliştirilen SAX, vektör halindeki temsil edilmiş veriyi sembollere dönüştürmeyi amaçlar. (Lin ve ark, 2003) SAX temsil yönteminin izlediği adımlar Normalleştirme PAA ile boyut indirgeme Sembolik dönüşüm

Symbolic Aggregate approximation Standart Normal Dağılım ve Kesme Noktaları c i = PAA ile elde edilen ortalama değerleri β = (β 1, β 2) seçilen 3 karakter için elde edilen kesme noktaları a; c i < β 1 Sembol = b; β 1 < c i < β 2 c; c i > β 2

Kesit Anomaliler Bir zaman serisinin kesitleri içerisinden kendisi ile eşleşmeyen en yakın komşusuna en büyük uzaklığa sahip olan kesit uyumsuz-anomali olarak belirlenir.(keogh ve arkadaşları, 2006) Literatürde kesit anomali tespiti üzerine bir çok çalışma bulunmaktadır; Online novelty detection on temporal sequences (SVR-Based), Ma ve Perkins, 2003. Finding the most unusual time series subsequence: algorithms and applications (HOT-SAX), Keogh ve ark., 2006. Finding Time Series Discords Based on Haar Transform (WAT), Fu ve ark., 2007.

HOT-SAX Algoritması Heuristically Ordered Time series using Symbolic Aggregate approximation. (Keogh ve ark., 2006) İhtiyaç duyulan tek parametre araştırılacak olan kesitin büyüklüğüdür. HOT-SAX bruteforce kullanarak, zaman serisi içerisinde gözlemlenen her kesiti kendisi ile eşleşmeyen bütün kesitlerle karşılaştırır. Zaman serisinin içerisindeki tüm kesitlerin benzerlik ölçümlerini yaparak anomali tespiti yapmaya çalışır.

HOT-SAX Algoritması HOT-SAX temsil yöntemi alttaki adımları izler Zaman serisi SAX yöntemi ile temsil edilir. Kesitlere verilen sembollerden desenler elde edilir. Oluşan desenlerden en az sayıda olanlar anomali adayı olarak seçilir. Seçilen adayların kendisi ile eşleşmeyen bütün kesitlere olan uzaklığı hesaplanır. En yakın komşusuna olan uzaklığı en fazla olan kesit anomali olarak belirlenir. Kendisi ile eşleşmeyen kesitler (non-self match): M ve K bir zaman serisinden seçilen m boyutunda kesitler ve başlangıç noktaları p ve q olsun. M K nın kendisi ile eşleşmeyen kesiti ise p q m olması beklenir.

Uygulama Aralık 2003 Aralık 2014 tarihleri arasındaki Euro-Dolar parite değerleri Zaman serisi European Central Bank web sayfasından günlük (iş günü) kaydedilen verilerden alınmıştır. 2820 günlük Euro/Dolar parite değeri incelenmiştir. R istatistiksel proglamlama dili kullanılmıştır.

Uygulama Zaman serisinin sembolik gösterimi için dört karakter (a,b,c,d) tercih edilmiştir. PAA için genişlik 10 gün seçilmiştir. Her üç alt kesitin bir dönemi temsil ettiği belirlenmiştir. SAX temsil yöntemi sonrasında her 30 günlük dönem 3 karakter ile temsil edilmiştir.

Uygulama Zaman serisinden 8373 alt kesit elde edilmiş ve 2791 dönem HOT-SAX algoritması ile incelenmiştir. Tüm Dönemler Desen Tekrar Sayısı aaa 524 ddd 515 cbb 86 aac 1 bac 1 Anomali Adayları Desen Başlangıç Bitiş aac 16.02.2009 27.03.2009 bac 13.02.2009 26.03.2009 Anomali adaylarının en yakın komşularına olan uzaklıkları hesaplanmış ve aac deseni anomali olarak belirlenmiştir.

Uygulama 2009 yılına ait değerler ve bulunan anomali Bulunan anomali kesiti 2009 yılı içerisinde doların en yüksek olduğu zaman aralığını içermektedir.

Anomali Aralığında Gerçekleşen Ekonomik Olaylar Anomali olarak belirlenen desen Uluslararası finansal kriz karşısında ülkeler tarafından alınan önlemler incelenmiştir. 15 Mart 2009 haftasında FED beklenmeyen bir kararla 6 ay içinde, hükümetten 300 milyar dolara kadar uzun dönemli borç tahvili alacağını açıklamıştır.

Referanslar Chandola, V., Grumbach, A., Kumar, C., Anomaly Detection: A survey, ACM Computing Surveys, 41(3), (2009). Esling, P., Agon, C., Time-series data mining, ACM Computing Surveys, 45(1),(2012). European Central Bank Web Site, https://www.ecb.europa.eu/stats, Erişim tarihi: 10.12.2014. Fu, T., A review on time series data mining, Engineering Applications of Artificial Intelligence, 24, 164:181(2011). Fu, A.W., Leung, O.T., Keogh, E., Lin, J., Finding Time Series Discords Based on Haar Transform, Advanced Data Mining and Applications, 4093, 31:41(2007). Keogh, E., Chakrabarti, K., Pazzani, M., and Mehrotra, S., Dimensionality reduction for fast similarity search in large time series databases, Knowledge and Information Systems, 3(3), 263:286(2001).

Referanslar Keogh, E., Lin, J., Lee, S.H., Herle, H.V., Finding the most unusual time series subsequence: algorithms and applications, Knowledge and Information Systems, 11(1), 1:27(2006). Lin, J., Keogh, E., Leonardi, S., and Chiu, B., A symbolic representation of time series, with implications for streaming algorithms, In Proceedings of the 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery,2:11(2003). Lin, J.,Keogh, E., Wei, L., Lonardi, S., Experiencing SAX: a novel symbolic representation of time series, Data Mining and Knowledge Discovery, 15(2), 107:144(2007). Ratanamahatana, C. A., Lin, J., Gunopulos, D., Keogh, E., Mining time series data, Data Mining and Knowledge Discovery Handbook, 1069:1103(2005). Türkiye Bankalar Birliği, Bankacılık ve Araştırma Grubu, Uluslararası Finansal Kriz Karşısında Ülkeler Tarafından Alınan Önlemler Kronolojisi, Bankacılar Dergisi, 69, 86:93(2009).

Teşekkürler!