Lojistik Regresyon ile Bilgisayar Ağlarında Anomali Tespiti



Benzer belgeler
Anomaly Detection in Computer Networks with Logistic Regression

LOJİSTİK REGRESYON ANALİZİ

İstatistik ve Olasılık

Lojistik Regresyon ile Bilgisayar Ağlarında Anomali Tespiti

SÜREKLİ RASSAL DEĞİŞKENLER

REGRESYON ANALİZİ VE UYGULAMA. Yrd. Doç. Dr. Hidayet Takcı

Örnek. Aşağıdaki veri setlerindeki X ve Y veri çiftlerini kullanarak herbir durumda X=1,5 için Y nin hangi değerleri alacağını hesaplayınız.

Örneklemden elde edilen parametreler üzerinden kitle parametreleri tahmin edilmek istenmektedir.

BKİ farkı Standart Sapması (kg/m 2 ) A B BKİ farkı Ortalaması (kg/m 2 )

Yapay Sinir Ağları ile Ağ Üzerinde Saldırı Tespiti ve Paralel Optimizasyonu

İÇİNDEKİLER ÖNSÖZ... Örneklem Genişliğinin Elde edilmesi... 1

Yapay Sinir Ağları ile Ağ Üzerinde Saldırı Tespiti ve Paralel Optimizasyonu

Saldırı Tespit ve Engelleme Sistemleri Eğitimi Ön Hazırlık Soruları

İçindekiler. Ön Söz... xiii

MAK 210 SAYISAL ANALİZ

2. BASİT DOĞRUSAL REGRESYON 12

İÇİNDEKİLER. BÖLÜM 1 Değişkenler ve Grafikler 1. BÖLÜM 2 Frekans Dağılımları 37

Web Madenciliği (Web Mining)

RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI. Yrd. Doç. Dr. Emre ATILGAN

1. FARKLILIKLARIN TESPİTİNE YÖNELİK HİPOTEZ TESTLERİ

H.Ü. Bilgi ve Belge Yönetimi Bölümü BBY 208 Sosyal Bilimlerde Araştırma Yöntemleri II (Bahar 2012) SPSS Ders Notları II (19 Nisan 2012)

Nitel Tepki Bağlanım Modelleri

BİYOİSTATİSTİK DERSLERİ AMAÇ VE HEDEFLERİ

Sık kullanılan istatistiksel yöntemler ve yorumlama. Doç. Dr. Seval KUL Gaziantep Üniversitesi Tıp Fakültesi

Yeni Nesil Ağ Güvenliği

2. REGRESYON ANALİZİNİN TEMEL KAVRAMLARI Tanım

REGRESYON. 9.Sunum. Yrd. Doç. Dr. Sedat ŞEN

İstatistik, genel olarak, rassal bir olayı (ya da deneyi) matematiksel olarak modellemek ve bu model yardımıyla, anakütlenin bilinmeyen karakteristik

Korelasyon, Korelasyon Türleri ve Regresyon

KORELASYON VE REGRESYON ANALİZİ. Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı

Secure Networks Capabilities Dragon Network Defense

Meslek lisesi ve devlet lisesine giden N tane öğrenci olduğu ve bunların yıllık okul harcamalarına ait verilerin olduğu varsayılsın.

3 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI

Öğr. Elemanı: Dr. Mustafa Cumhur AKBULUT

ERİŞİM ENGELLEME DOS VE DDOS:

BAĞIMLI KUKLA DEĞİŞKENLİ MODELLER A- KADININ İŞGÜCÜNE KATILIM MODELİ NİN DOM İLE E-VIEWS DA ÇÖZÜMÜ

BİH 605 Bilgi Teknolojisi Bahar Dönemi 2015

Kategorik Veri Analizi

İstatistik ve Olasılık

H.Ü. Bilgi ve Belge Yönetimi Bölümü BBY 208 Sosyal Bilimlerde Araştırma Yöntemleri II (Bahar 2012) SPSS Ders Notları III (3 Mayıs 2012)

Ağ Trafik ve Forensik Analizi

VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN

PARAMETRİK OLMAYAN İSTATİSTİKSEL TEKNİKLER

Kullanılacak İstatistikleri Belirleme Ölçütleri. Değişkenin Ölçek Türü ya da Yapısı

MIT OpenCourseWare Ekonomide İstatistiksel Yöntemlere Giriş Bahar 2009

SIMÜLASYON DERS SORUMLUSU: DOÇ.DR. SAADETTIN ERHAN KESEN. Ders No:2 Simülasyon Örnekleri

Hastane Personelinin Kan Bağışı Hakkındaki Bilgi, Tutum ve Davranışlarının Çok Değişkenli Lojistik Regresyon Yöntemiyle İncelenmesi

REGRESYON ANALĐZĐ. 1

İLERİ BİYOİSTATİSTİK KURSU

YABANCI DİL EĞİTİMİ VEREN ÖZEL BİR EĞİTİM KURUMUNDAKİ ÖĞRENCİLERİN BEKLENTİLERİNİN ARAŞTIRILMASI. Sibel SELİM 1 Efe SARIBAY 2

Matris Cebiriyle Çoklu Regresyon Modeli

Oluşturulan evren listesinden örnekleme birimlerinin seçkisiz olarak çekilmesidir

Web Uygulamarına Yönelik DoS DDoS Saldırıları ve Performans Testleri. Barkın

Computer Networks 5. Öğr. Gör. Yeşim AKTAŞ Bilgisayar Mühendisliği A.B.D.

PARAMETRİK TESTLER. Tek Örneklem t-testi. 200 öğrencinin matematik dersinden aldıkları notların ortalamasının 70 e eşit olup olmadığını test ediniz.

Kategorik Veri Analizi


Ders Adı Kodu Yarıyılı T+U Saati Ulusal Kredisi AKTS. Bilgisayar Ağları I BIL

H.Ü. Bilgi ve Belge Yönetimi Bölümü BBY 208 Sosyal Bilimlerde Araştırma Yöntemleri II (Bahar 2012) SPSS DERS NOTLARI I 5 Nisan 2012

altında ilerde ele alınacaktır.

HAZIRLAYAN BEDRİ SERTKAYA Sistem Uzmanı CEH EĞİTMENİ

İki Ortalama Arasındaki Farkın Önemlilik Testi (Student s t Test) Ankara Üniversitesi Tıp Fakültesi Biyoistatistik Anabilim Dalı

13. Olasılık Dağılımlar

7.Ders Bazı Ekonometrik Modeller. Đktisat (ekonomi) biliminin bir kavramı: gayrisafi milli hasıla.

QUANTILE REGRESYON * Quantile Regression

YZM ALGORİTMA ANALİZİ VE TASARIM DERS#2: ALGORİTMA ANALİZİ

DERS BİLGİLERİ Ders Kodu Yarıyıl T+U Saat Kredi AKTS Çok Değişkenli İstatistik EKO428 Bahar Ön Koşul Dersin Dili

OLASILIK ve KURAMSAL DAĞILIMLAR

Kurumsal Güvenlik ve Web Filtreleme

Korelasyon ve Regresyon

Proceedings July 25-27, 2017; Paris, France

Ağ Nedir? Birden fazla bilgisayarın iletişimini sağlayan printer vb. kaynakları, daha iyi ve ortaklaşa kullanımı sağlayan yapılara denir.

Bilgisayar Sistemleri ilk ortaya çıktığında...

Ağ Topolojisi ve Ağ Yazılımları

Siirt Üniversitesi Eğitim Fakültesi. Yrd. Doç. Dr. H. Coşkun ÇELİK Arş. Gör. Barış MERCİMEK

SPSS E GİRİŞ SPSS TE TEMEL İŞLEMLER. Abdullah Can

Kurumsal Güvenlik ve Web Filtreleme

Appendix C: İstatistiksel Çıkarsama

YTÜ İktisat Bölümü EKONOMETRİ I Ders Notları

Web Servis-Web Sitesi Bağlantısı

AĞ HİZMETLERİ. Öğr.Gör.Volkan ALTINTAŞ. Version 4.0

Elbistan Meslek Yüksek Okulu Güz Yarıyılı

Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri. Mustafa Kemal Üniversitesi

BÖLÜM-1.BİLİM NEDİR? Tanımı...1 Bilimselliğin Ölçütleri...2 Bilimin İşlevleri...3

SOSAM: SANAL ORTAM SAVUNMA MERKEZİ

ĐSTATĐSTĐK. Okan ERYĐĞĐT

OSPF PROTOKOLÜNÜ KULLANAN ROUTER LARIN MALİYET BİLGİSİNİN BULANIK MANTIKLA BELİRLENMESİ

ProFTPD FTP Sunucusu. Devrim GÜNDÜZ. TR.NET Sistem Destek Uzmanı.

İSTATİSTİK 1. Ankara Üniversitesi Eğitim Bilimleri Fakültesi Ölçme ve Değerlendirme Anabilim Dalı. Yrd. Doç. Dr. C. Deha DOĞAN

BİLİŞİM TEKNOLOJİLERİ İÇİN İŞLETME İSTATİSTİĞİ

FTP ve Güvenlik Duvarları

Temel Bilgisayar (Basic Computer) Yazılım (Software)

SİBER SUÇLARA KARŞI SİBER ZEKA

Normallik Varsayımı ve Ençok Olabilirlik Yöntemi

TBF 110 BİLGİSAYARDA VERİ İŞLEME ve UYGULAMALARI Ha9a- 2 - İnternet

BMÜ-421 Benzetim ve Modelleme Kesikli Olay Benzetimi. İlhan AYDIN

İÇİNDEKİLER 1. GİRİŞ...

DENİZ HARP OKULU BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜM BAŞKANLIĞI DERS TANITIM BİLGİLERİ

10.Sunum. Yrd. Doç. Dr. Sedat ŞEN 1

Elbistan Meslek Yüksek Okulu Güz Yarıyılı EKi Salı, Perşembe Öğr. Gör. Murat KEÇECĠOĞLU

Transkript:

Lojistik Regresyon ile Bilgisayar Ağlarında Anomali Tespiti İdris Budak 1, Baha Şen 2, Mehmet Zahid Yıldırım 3 1 Karabük Üniversitesi, Fen Bilimleri Enstitüsü Bilgisayar Mühendisliği Bölümü, Karabük 2 Yıldırım Beyazıt Üniversitesi Mühendislik ve Doğa Bilimleri Fakültesi Bilgisayar Müh. Bölümü Ankara 3 Karabük Üniversitesi, Fen Bilimleri Enstitüsü Bilgisayar Mühendisliği Bölümü, Karabük idrisbudak@karabuk.edu.tr, bsen@ybu.edu.tr, m.zahidyildirim@karabuk.edu.tr Özet: Bilgi çağının en önemli unsurları olan bilginin üretilmesi, korunması ve erişilmesinde kullanılan bilgisayar ağlarının hız, güvenlik ve sürekliliği bugün hayatın vazgeçilmezleri arasında ilk sıralarda yerini almaktadır. Bu yüzden ağdaki düzensizliklerin zamanında tespit edilip önlemlerin alınması gerekmektedir. Bu çalışmadaki amaç bilgisayar ağlarındaki anomali tespitinde Binary Lojistik Regresyon tekniğinin uygulanabilirliğini incelemektir. Bu amaçla Saldırı Tespit Sistemleriyle ilgili çalışmalarda en sık kullanılan veri setlerinden olan KDD Cup 99 veri seti kullanılarak bir matematiksel model oluşturulup bu modelin uygunluğu test edilmiştir. Anahtar Sözcükler: Saldırı Tespit Sistemleri, Bilgisayar Ağlarında anomali Tespiti, Lojistik Regresyon. Anomaly Detection In Computer Networks With Logistic Regression Abstract : The most important elements of the information age is generation, securing, and access to knowledge, so the location of the first rank in indispensable of life today is computer networks with high speed, security, and continuity. Therefore, measures should be taken timely when anomalies detected in the network. The purpose of this working is to detect if logistic regression is usable in anomaly detection for computer networks. For this purpose we used KDD Cup 99 data set for mathemaical model and tested that model for convenience. Keywords: Intrusion Detection Systems, Anomaly Detection In Computer Networks, Logistic Regression. 1.Giriş Yaşadığımız bilgi çağında şimdiye kadar hiç olmadığı kadar bilgi üretilmekte işlenmekte ve bunlara erişilmektedir. Bilginin bu denli hızlı üretilip yayılmasında hiç kuşkusuz bilgisayar teknolojileri en büyük teknik faydayı sağlamaktadır. Bilgiye erişim ve paylaşım için ise en fazla verimliliği bilgisayar ağları sağladığından, ağ işleyişinin düzgün olması hayati önem taşımaktadır. Ağ trafiğindeki anormallikler ise ağın gerektiği gibi kullanımını engelleyen unsurların başında gelmektedir. Bu anormallikler altyapı sorunlarından kaynaklanabileceği gibi ağın kötüye kullanılması veya ağa yapılan saldırılardan da kaynaklanabilmektedir. Birçok kaynakta saldırı tespit sistemleri olarak da anılan anomali tespit sistemleri ağda oluşan düzensizlikleri tespit edip ilgili kişileri veya yazılımları uyarmayı sağlayan sistemlerdir. Günümüzde çeşitli organizasyon ve kurumlar tarafından üretilmiş gerek ticari gerekse açık kaynak kodlu birçok saldırı tespit sistemleri mevcuttur. Bizim çalışmamızın özgün tarafı ise Logistic regresyonun çözüm yöntemlerinden olan logit modelin kullanılarak binary logistic regresyon ile tüm ağ trafiğinin analiz edilip belli bir anda trafikte anomali olma olasılığının ne olduğunu gösteren bir çalışma olmasıdır.

2. Anomali Tespitinde Kullanılan Yöntemler Anomali tespit sistemleri, daha çok firewall'larda bulunan kural veya imza tabanlı sistemlerden farklı olarak daha dinamiktir, ve henüz hakkında bir imza bilinmeyen saldırıları da algılama avantajına sahiptir. Anomali tespitinde günümüze kadar en fazla istatistiksel yöntemler kullanılmasına rağmen bunun dışında: - kural tabanlı (rule based) - eşik değeri belirleme (threshold value), - durum geçiş diyagramları (state transition diagrams), - yapay sinir ağları (artificial neural networks), - veri madenciliği (data mining), - yapay bağışıklık sistemi (artificial immune system), - uzman sistemler, - örüntü eşleme, - bulanık mantık (fuzzy logic) gibi farklı birçok yaklaşım uygulanmıştır. 3. Lojistik Regresyon Lojistik regresyon analizinin kullanım amacı istatistikte kullanılan diğer model yapılandırma teknikleriyle aynıdır. En az değişkeni kullanarak en iyi uyuma sahip olacak şekilde sonuç değişkeni (bağımlı yada cevap değişkeni) ile bağmsız değişkenler kümesi (açıklayıcı değişkenler) arasındaki ilişkiyi tanımlayabilen ve genel olarak kabul edilebilir modeli kurmaktır. [1] Bazı nicel değişkenler de regresyon modellerinde nitel olarak kullanılabilmektedir. Örneğin öğrenim düzeyi yıl bazında nicel olarak ele alınabileceği gibi, ilköğretim, lise, üniversite ve üniversite üstü olmak üzere dört şıklı bir nitel değişken olarak da ele alınabilir (Orhunbilge, 1996). Amaçlarından birisi sınıflandırma, diğeri ise bağımlı ve bağımsız değişkenler arasındaki ilişkileri araştırmak olan lojistik regresyon analizinde, bağımlı değişkeni kategorik veri oluşturmakta ve kesikli değerler almaktadır. Bağımsız değişkenlerin ise hepsinin veya bazılarının sürekli ya da kategorik değişkenler olmasına ilişkin bir zorunluluk bulunmamaktadır (Işığıçok, 2003:3).[2] Lojistik regresyon analizi, son dönemlerde özellikle sosyal bilimler alanında kullanımı yaygınlaşan bir yöntemdir. Neden sonuç ilişkilerinin ortaya konulması amacıyla yapılan çoğu sosyo-ekonomik araştırmada, incelenen değişkenlerden bazıları olumluolumsuz, başarılı-başarısız, evet-hayır, memnun-memnun değil şeklinde iki düzeyli verilerden oluşmaktadır. Bu türde bağımlı değişkenin iki düzeyli ya da çok düzeyli kategorik verilerden oluşması durumunda; bağımlı değişken ile bağımsız değişken (ler) arasındaki neden-sonuç ilişkisinin incelenmesinde, Lojistik Regresyon Analizi önemli bir yere sahiptir (Agresti, 1996: 103). Lojistik regresyon denklemlerinde bulunan bağımsız değişkenlerin tümünün bağımlı değişkeni açıklamak için etkili olması her zaman mümkün olmamaktadır, bunun için değişken eleme yöntemleri olarak bilinen istatistik yöntemler kullanılmaktadır. Değişken seçimi yöntemlerinden yaygın olarak bilinenleri; ileri doğru seçim (forward selection), geriye doğru eleme (backward elemination) ve tüm olası regresyon yaklaşımı (all possible regression) gibi değişik yaklaşımları mevcut olan adımsal regresyon (stepwise), ve en iyi regresyon modeli bulma (best regression) yöntemleridir (Miller 1990, Önder 2001, Özdamar 2004). [3] Lojistik regresyon analizi sonucunda elde edilen modelin uygun olup olmadığı model ki-kare testi ile, her bir bağımsız değişkenin modelde varlığının anlamlı olup olmadığı ise Wald istatistiği ile test edilir. 3.1 Lojistik Regresyon ile Doğrusal Regresyon Farkı: Lojistik Regresyon ile Doğrusal Regresyonun en temel farkı doğrusal regresyon analizinde bağımlı değişkenin değeri, lojistik regresyonda ise bağımlı değişkenin alabileceği değerlerden birinin gerçekleşme olasılığı kestirilir. Ayrıca bağımsız değişkenlerin dağılımına ilişkin hiçbir ön koşulu olmayan lojistik regresyonda bağımlı değişken kesikli bir değer olmalı iken doğrusal regresyonda ise sürekli olmalıdır. (Çoşkun v.d, 2004:43) Bilinen doğrusal regresyon analizinde bağımlı değişken ve bağımsız değişken(ler) sayısal (ölçümle belirtilen sürekli ya da kesikli sayısal) olarak belirtilir. 2

Örneğin, yaş ile kan basıncı arasında bir ilişki aranacaksa; hem yaş, hem de kan basıncı sayısal olarak belirtilmelidir. Nitelik olarak belirtilemezler. Bağımlı değişken nitelik olarak belirtilirse, bağımsız değişken ya da değişkenlerle arasındaki ilişki lojistik regresyon yöntemiyle aranır. [4] Şekil1[5] 4. Lojistik Regresyon Modelleri Log-lineer, Logit ve Probit Modeller iki şıklı bağımlı değişkenleri açıklamada regresyon gibi genel doğrusal modellerin temelini oluşturmaktadır. Bu modeller bağlantı fonksiyonu olarak Sıradan En Küçük Kareler tahmini yerine Maksimum Benzerlik (En Çok Olabilirlik) tahminini kullanarak standart regresyondan ayrılır. Fonksiyon, log-lineer analizde bağımlı değişken y nin logaritmasında, logit analizde bahis oranının (odds ratio) doğal logaritmasında kullanılmaktadır. Probitte ise standart normal birikimli dağılım fonksiyonunun tersinde kullanılmaktadır (Hagenaars, 1993). [6] Logistic Regresyon genel olarak üçe ayrılır: 1- İkili (Binary) lojistik regresyon: Bağımlı değişken iki düzeyli olduğunda kullanılır(var-yok, Evet-Hayır). 2- Sıralı (Ordinal) lojistik regresyon: Bağımlı değişken sıralı nitel veri tipinde (hafif-ortaşiddetli vb.) olduğunda kullanılır. 3- Multinomial lojistik regresyon: Bağımlı değişken ikiden çok düzeyli sıralı olmayan nitel veri tipinde olduğunda kullanılır. Biz çalışmamızda binary-logistic-regression tekniğini kullanacağız. 4.1 Logit Model: Odds başarı ya da görülme olasılığının p, başarısızlık ya da görülmeme olasılığına 1- p oranıdır. Başka bir deyişle: İncelenen bir olayın olasılığının kendi dışında kalan diğer olayların olasılığına oranına odds değeri denilir. Odds ratio (OR) ise iki odds un birbirine oranıdır. İki değişken arasındaki ilişkinin özet bir ölçüsüdür. (Bahis Oranı da denir) Tablo1: UDP Protokolü ODDS Değerleri Protokol Saldırı Toplam udp mi? Var Yok Evet 3 127 130 Hayır 45 180 225 Toplam 48 307 355 Örneğin yukardaki Tablo1 e baktığımızda: Protokol tipi udp olan bağlantılarda saldırı olma odds u: (3/130) / (127/130) = 3/127 = 0.024 Udp olmayan bağlantılarda ise: 45/180 = 0.25 Odds ratio = 0.25 / 0.024 = 10.4 3

Bu bize udp protokolü kullanmayan bağlantıların saldırı olma olasılığının, udp kullananlardan yaklaşık 10 kat daha fazla olduğunu göstermektedir. fonksiyonu bağımlı ve bağımsız değişkenler arasında aşağıdaki lojistik fonksiyonunu kullanmaktadır: Logit ismi, odd değerinin doğal logaritmasını ifade etmektedir. Yani π olasılığı göstermek üzere, logit; Şekil:2 Logit model, bağımsız değişken değeri sonsuza gittiği zaman, bağımlı değişkenin 1 e asimptot olduğu matematiksel bir fonksiyondur. [7] Logit modellerinde olasılıklar 0 ile 1 arasında sınırlandırılmışlardır. Bunu yaparken lojistik regresyon modeli olasılıklara bir dönüşüm uygulamaktadır; çünkü olasılıklar ve tahmin edici değişken arasındaki ilişki doğrusal değildir ve S şeklinde bir eğridir. Aşağıda Şekil3 ten görüleceği üzere, lojistik regresyon varsayımı altında olasılıkların lojistik dönüşümü ok ile gösterilmekte olup bu dönüşüm, tahmin edici değişkenler ile olasılıkların doğrusal bir ilişki içerisinde sonuçlanmasını sağlamaktadır. [8] Şekil:4[9] Yukardaki Şekil4 te geçen formülde p olayın olma olasılığı (bağımlı değişkenin tahmin edilen değerini) vektörünü, β model parametreleri vektörünü, X ise sabit terimi de içerisinde barındıran bağımsız değişkenler matrisini temsil etmektedir. Bu fonksiyondan hareketle bağımlı değişkenin tahmin edilen olasılık değerleri (p) vektörü aşağıdaki şekil5 teki formülle hesaplanmaktadır.[9] Şekil:5 Şekil:3[8] 4.2 Lojistik Regresyon Formülü: Lojistik regresyon analizi bağımlı değişkenin 0 ila 1 değerleri arasında aldığı ve tahmin edilen olasılıkların 0-1 aralığında sınırlı olacağını kabul eder. 0-1 aralığında sınırlandırılmış ilişkiyi tanımlamak için lojistik regresyon yöntemi lojistik eğrisini kullanmaktadır(şekil4). Lojistik regresyon Yukardaki Lojistik Regresyon formülünde: P : İncelenen olayın gözlenme olasılığını, β0: Bağımsız değişkenler sıfır değerini aldığında bağımlı değişkenin değerini başka bir ifadeyle sabiti, β1 β2... βk : Bağımsız değişkenlerin regresyon katsayılarını, X1 X2... Xk : Bağımsız değişkenleri, k: Bağımsız değişken sayısını, e: 2.71 sayısını göstermektedir. (Özdamar, 2002: 475); 4

4.3 Logit Model ile Lojistik Regresyon Arasındaki Benzerlik ve Farklar : Lojistik regresyon, bir ya da daha fazla açıklayıcı değişken ile ikili bir yanıt değişkeni arasındaki ilişkiyi göstermek için kullanılan bir tekniktir. Açıklayıcı değişkenler kategorik, sürekli ya da her ikisi de olabilir. Logit modellerde ise açıklayıcı değişkenler sadece kategorik değişkenlerden oluşabilir.[10] 5. Kullandığımız Veri Seti: Saldırı Tespit Sistemleriyle ilgili çalışmalarda en sık kullanılan veri seti DARPA 1998 ve 1999 veri setleridir. Biz de model oluşturma çalışmamızda yine bu verilerden türetilen KDD Cup 99 veri setini kullanacağız. Veri setini oluşturan kaynak aşağıdaki Şekil6 da da görüldüğü gibi saldırının hedefi olan bir iç ağ ve saldırıyı gerçekleştiren bir dış ağ olmak üzere iki farklı ağdan oluşmaktadır: Şekil:6[11] Hava kuvvetlerini temsil eden iç ağ 172.16.0.0/16 IP adres uzayına sahiptir. Bu ağ içerisinde dört kurban makine bulunmaktadır. Bunların üzerinde SunOS, Solaris, Linux, ve Windows NT koşmaktadır. (1998 veri setlerinde sadece UNIX makinalar kullanılmıştır.) Şekil6 da görülen trafik oluşturucular yüzlerce sunucuyu ve çeşitli uygulamaları çalıştıran İnternet kullanıcılarını simüle etmektedir. şekilde tasarlanmıştır. Ağ üzerinden 2 noktadan veri toplanmıştır: dört kurban makine ile yönlendirici arasındaki iç ağ dinleyicisi ve yönlendirici ile İnternet arasındaki dış ağ dinleyicisi üzerinden.( Veriler hergün sabah 08:00 ve ertesi gün sabah 06:00 arasında 22 saat veri toplanması sonucu oluşturulmuştur.) Bu saldırı yazılımları internet ortamından ve hacker sitelerinden toplanmış saldırılardır. [11]. Protokollerin (HTTP, SMTP, telnet,...) karışımı, trafik yoğunluğunun saatlik değişimleri, 1998 de gerçek Hava Kuvvetleri ağından toplanan trafiğe benzer olacak 5

DARPA verileri ile çalışırken matlab ya da sql sunucularla birlikte tcpdump çıktılarını wireshark(eski adı ethereal) programıyla da inceleyebiliriz. Ağ dinleyicisi iki yönlü paketleri yakaladığı için kurban makinalara gelen paketler için varış ip adresi 172.16.x.x olan paketler olarak süzülmelidir. Örnek bir filtre: (ip.dst == 172.16.0.0/16) and!(ip.src == 172.16.0.0/16) and!(ntp) and!(rip) and!(loop) and!(arp) and!(nbns) [12] 5.1 Veri Setinin Hazırlanması: Biz çalışmamızda kddcup.data_10_ percent_corrected dosya ismi ile internetten indirilebilen yaklaşık 75Mb büyüklüğünde ve içinde yaklaşık 500bin kayıt bulunan gerçek kddcupp-99 veri seti nin 10% una karşılık gelen veri setini kullandık. Veri setimizin ilk 250bin kaydını model oluşturmak için kalanı ise test için kullandık. Veri setinde toplam 41 adet değişken bulunmaktadır. Biz aşağıdaki prensiplere uyarak bu sayıyı 9 a indirdik: - Paketlerin sadece başlık bilgisine değil içeriğine de bakılarak anlaşılacak alanlar da alınmıştır.(örneğin bu yüzden hot, su_attempted gibi alanlar alınmıştır.) - Parametrelerin birbirlerinden bağımsız olanları seçilmiştir. Örneğin root_shell, su_attempted, num_root alanlarının tümü birden alınmak yerine su_attempted alanı alınmıştır. - Parametrelerin bağımlı değişkeni etkilemeyecek olanları seçilmemiştir. Örneğin src_bytes ve dst_bytes alanları bu yüzden alınmamıştır. bir bağlantıdır.) protokol tipi: tcp, udp, icmp değerlerinden biri olabilir. service: smtp, ftp, pop_3, ldap, login, imap4, auth, IRC, telnet, sql_net, exec, shell, klogin, kshell = 1, diğerleri = 0. Hedefteki ağ servisini gösterir(network service on the destination). flag: SF veya OTH = 0 ; diğerleri 1. SF bağlantının normal bir şekilde sonlandığını, OTH ise bağlantı takip işinin bağlantının ortasında başladığını gösterir. land: Hedef ve kaynak ip/port bilgileri aynı ise = 1; değilse 0. wrong_fragment: sıfır ise=0; değilse=1. Hatalı fragment sayısını gösterir. hot: sıfırdan büyük ise 1 ; değilse 0. Bir bağlantıda çalıştırılan kritik komut sayısını gösterir. Örneğin sistem klasörüne girmek, programlar oluşturup çalıştırmak gibi. num_failed_logins: sıfırsa 0 ; değilse 1. Yanlış login işlemleri sayısını gösterir. su_attempted: su root komutu denenmişse 1 diğer durumda 0. num_access_files: sıfırdan büyük ise 1 ; değilse 0. Kontrol ya da erişim izinlerini tutan kritik dosyalarda yapılan işlem sayısı. Verilerimizin örnek görüntüsü aşağıda Tablo2 deki gibi oldu: (En son kolondaki label bu kaydın-satırın- saldırı olup olmadığını tutmaktadır, saldırılar için 1, normal kayıtlar için 0 değerini verdik.) Verileri incelemek ve binary hale getirmek için öncelikle verileri sql sunucusuna alıp aşağıdaki kurallara uygun olarak ikili hale getirdik: protocol_type: tcp=1 ; udp veya icmp=0. Bağlantının(connection, datasetteki her satır 6

Step 1 protocol_type service flag land wrong_fragment hot num_failed_logins su_attempted num_access_files label Tablo2: Veri Seti Örnek Görüntüsü Tablo4: Bağımlı Değişken Kodlaması Original Value Internal Value 0 0 1 1 1 1 0 0 1 1 1 0 1 1 1 0 0 1 0 0 0 1 1 1 0 0 1 1 1 0 0 0 1 0 0 1 1 0 0 1 1 0 0 1 1 0 0 1 0 1 0 1 1 0 5.2 Modelin Oluşturulması: SPSS yazılımını kullanarak veri setimizi binary logistic regresyon ile analiz ettiğimizde aşağıdaki sonuçları elde ettik: Tablo3: Durum İşleme Özeti Unweighted Cases a N Percent Selected Cases Included in Analysis 250000 100,0 Missing Cases 0,0 Total 250000 100,0 Unselected Cases 0,0 Total 250000 100,0 Yukardaki Tablo3 veri setimizdeki tüm kayıtların analiz için kullanıldığını göstermektedir. Veri setimizde 250bin kayıt vardı, tabloda görüldüğü üzere tümü incelemeye alınmış. Tablo4 SPSS in, bağımlı değişkenimiz için, veri setimizdeki 0 ları binary 0 olarak, 1 leri ise binary 1 olarak aldığını göstermektedir, ki biz de böyle olması için data setimizi önceden buna göre hazırlamıştık. Çünkü bizim incelemek istediğimiz konu saldırı olma durumu olduğundan saldırı olması durumunu 1, olmaması durumunu ise 0 olarak kodlamıştık. Bu tamamen bir tercih meselesidir ve tamamen tersi de seçilebilirdi. Fakat sonuçların yorumunun kolay olması için genelde asıl ilgilendiğimiz cevap için 1 kullanmamız işimizi daha kolaylaştırır. Block 1: Method = Enter SPSS çıktısındaki yukardaki ibare ise metot olarak girişi(enter) seçtiğimizi yani adımsal(stepwise) ya da hiyerarşik metotları kullanmadığımızı gösterir. Tablo5: Sınıflandırma Tablosu Observed label Predicted 0 1 Percentage Correct label 0 59805 11420 84 Overall Percentage 1 736 178039 99,6 a. The cut value is 0,5 Tablo5 e baktığımızda tüm veri setimizde doğru sınıflandırılan yani saldırı olup olmadığının doğru olarak tahmin oranının 95,1% olduğunu görmekteyiz. Saldırı olmayan birbirinden farklı toplam 59.805+11.420=71.225 adet kayıt olduğunu ve bunların 59.805 tanesini yani 84% ünü modelimizin doğru tahmin ettiğini görüyoruz. 95,1 7

Tablo6: Eşitlikteki Değişkenler Step 1 a B S.E. Wald df Sig. Exp(B) protocol_type -7,133,039 3,380E4 1,000,001 service -1,372,068 401,313 1,000,254 flag 6,882,041 2,811E4 1,000 974,877 land 34,951 3,446E7,000 1 1,000 1,509E15 wrong_fragment 34,700 6,372E6,000 1 1,000 1,175E15 hot 6,454,071 8,375E3 1,000 635,420 num_failed_logins 3,803,889 18,313 1,000 44,854 su_attempted 2,610 1,434 3,315 1,069 13,602 num_access_files -,267,486,302 1,583,765 Constant 2,843,012 5,856E4 1,000 17,175 a. 1. Adımda ele alınan değişkenler: protocol_type, service, flag, land, wrong_fragment, hot, num_failed_logins, su_attempted, num_access_files. Yukardaki Tablo6 ise kullandığımız değişkenlerin hangilerinin hangi katsayılarla nihai modelimizde bulunacağını göstermektedir. Örneğin tabloda service değişkenimizin katsayısının(coefficent değerinin) -1,372 olması demek değişkenimizdeki 1 birimlik artışın(yani 0 yerine 1 olmasının başka bir deyişle http yerine telnet olmasının) sonucun log odds(yani logit) değerini -1,372 oranında düşürdüğünü gösterir. land ve wrong_fragment hariç diğer değişkenlerimiz içinde mutlak değer olarak en büyük katsayıya -7,133 ile protocol_type ; en küçüğüne ise -0,267 ile num_access_files değişkenlerimizin sahip olduğunu görmekteyiz. Bu da bize bir kaydın saldırı olup olmadığını belirlemede en büyük belirleyici role sahip parametrenin protocol_type olduğunu ; en az ağırlığın ise num_access_files değişkeninde olduğunu göstermektedir. Parametrelerimizin S.E.(Standart Error) değeri ise tahminimizin ne kadar stabil olduğunun ölçüsüdür ve ne kadar düşükse o kadar tutarlı sonuçlar alırız. Örneğin land ve wrong_fragment hariç diğer tüm değişkenlerimizin ortalaması yaklaşık 0.4 iken bu iki değişkenin ortalaması yaklaşık 5 civarındadır, bu da bu iki değişkenin stabiliteyi ne kadar fazla bozduğunu göstermektedir. Wald istatistiği değişkenlerimizin hangilerinin modelimiz için anlamlı olduğunu hangilerinin gereksiz olduğunu göstermektedir. Değişkenlerimiz içinde wald değeri sıfıra çok yakın olan land ve wrong_fragment değişkenlerimizin modelde gereksiz olduğu sonucu çıkmaktadır. Tablodaki Sig. kolonu ise değişkenin anlamlılık düzeyini göstermekte olup SPSS te varsayılan olarak p<0.05 olarak çalışmaktadır. Sig değeri sıfıra ne kadar çok yakınsa parametrenin modeldeki anlamlılık düzeyi o kadar fazla demektir. Buna göre Sig değeri 1 olan land ve wrong_fragment değişkenlerimizin modelimizde anlamlı olmadıkları sonucu çıkmaktadır. Sig, wald ve SE değerlerinden anlaşıldığı üzere land ve wrong_fragment değişkenlerimiz nihai modelimizde bulunmayacaklardır. Buna göre nihai modelmiz aşağıdaki gibi olacaktır: 8

Regresyon eşitliği aşağıdaki gibi olmak üzere: g(x) = β 0 + β 1. X 1 + β 2. X 2 + + β k. X k g(x) = 2,843 + protocol_type*(-7,133) + service*(-1,372 ) + flag*6,882 + hot*6,454 + num_failed_logins*3,803 + su_attempted*2,610 + num_access_files*(-0,267) P = 1/(1 + e -g(x) ) 5.3 Modelin Uygulaması: Örneğin aşağıdaki gibi bir kayıt için modelimizin ürettiği sonuca bakalım: protocol_type=tcp, service=telnet, flag=s0, hot=0, num_failed_logins=0, su_attempted=0, num_access_files=0, label=neptune. Kaydın label yani saldırı olup olmadığı ile ilgili bilgi alacağımız alanında neptune yazmaktadır. Yani bu bir neptune saldırısıdır. Her parametreyi iki kategorili hale çevirip g(x) fonksiyonunda yerine koyarsak : g(x) = 2,843 + 1*(-7,133) + 1*(-1,372 ) + 1*6,882 + 0*6,454 + 0*3,803 + 0*2,610 + 0*(-0,267) = 1,22 P = 1/(1 + e -g(x) ) = 1/(1 + e -1,22 ) = 0.7721 yani sonuçta bu kaydın yaklaşık 77% ihtimalle saldırı olduğunu söyleyebiliriz. Bizim modelimizde eşik(cutoff) değerimiz 50% olduğundan ve 77>50 olduğundan modelimiz sonuç için 100% doğrulukla bu bir saldırı demektedir. Aşağıdaki Tablo7 ise test için kullandığımız veri setimize(kddcupp-99 veri seti nin 5%ini içeren yaklaşık 250bin kayıt) modelimizin uygulanması ile elde ettiğimiz sonuçları göstermektedir. Modelimiz test verileri üzerinde gerçekte saldırı olan kayıtları 99,99% oranında doğru saptayabilirken, gerçekte saldırı olmayan kayıtlarda ise 42% oranında doğru sonuç üretebilmektedir. Tablo7: Test Verisi Sınıflandırma Tablosu Gerçek Tahminimiz label 0 1 Doğruluk Yüzdesi label 0 10912 15141 42 Toplam Yüzde 1 11 217957 99,9 93,8 Tahminimiz >= 0,5 ise saldırı kabul ettik. 5.4 Sonuç ve Öneriler: Sonuç olarak diyebiliriz ki modelimizin analiz ettiği bir kayıt gerçekte bir saldırı ise bunu 99%un üzerinde bir ihtimalle saldırı olduğunu bulabiliyoruz. Ki bu oran çok yüksek bir başarı oranıdır. Fakat gerçekte saldırı olmayan bir kaydın analizinde modelimizin başarı oranı biraz düşük (modeli bulduğumuz veri setinde 84%. Test veri setimizde ise 42%). Ki bu da modelimizin sürekli saldırılara maruz kalan, fakat güvenlik seviyesi çok yüksek olması gereken, hiçbir saldırıya tahammülü olmayan, yanlış alarmlarla (false-pozitif) uğraşacak yeterli elemanı olan, kritik öneme sahip ağ işletim merkezleri için son derece uygun bir model olduğunu göstermektedir. İlerki çalışmalarda günümüz internet trafiği verilerinin özelliklerini de dikkate alıp bu modeli geliştirerek bunu kullanan bir yazılım üretip gerçek hayatta kullanılabilir. Biz bir sonraki çalışmamızda aynı veri seti ve parametreleri kullanarak yapay sinir ağları ile de bir model oluşturup iki modelin karşılaştırılmasını sağlayacağız. 9

6. Kaynaklar: [1] Lojistik Regresyon Analizinin İncelenmesi Ve Diş Hekimliğinde Bir Uygulaması Sibel COŞKUN, Doç. Dr. Mahmut KARTAL, Yrd. Doç. Dr. Akın COŞKUN, Yrd. Doç. Dr. Hüdaverdi BİRCAN Kullanılması, İTÜ Yüksek Lisans Tezi, 2005. [12] Saldırı Tespit Sistemlerinde İstatistiksel Anormallik Belirleme Kullanımı "Bahar 2005" Yük. Müh. Melike Erol [2] Tramvay Yolcu Memnuniyetinin Lojistik Regresyon Analiziyle Ölçülmesi: Estram Örneği "Yrd. Doç. Dr. Nuray GİRGİNER", "Bülent CANKUŞ" [3] Çoklu Bağlantı Durumunda İkili(Binary) Lijistik Regresyon Modelinde Gerçekleşen I. Tip Hata Ve Testin Gücü " "Yeliz KAŞKO" "ZooTekni Anabilim dalı" [4] Lojistik Regresyon Analizi http://78.189.53.61//bs/ess/k_sumbuloglu.pdf Sayfa Görüntüleme Tarihi: 10.12.2012 [5] Bala Deshpande "Understand 3 critical steps in developing logistic regression models " "http://www.simafore.com/blog/bid/99443/u nderstand-3-critical-steps-in-developinglogistic-regression-models" Sayfa Görüntüleme Tarihi: 10.12.2012 [6] Yapay Bağımlı Değişkenli Tahmin Modelleri Ve Bir Uygulama, Tuğba Altıntaş, Yüksek Lisans Tezi, İstatistik Anabilim Dalı [7] "Doğrusal Olasılık ve Logit Modelleri ile Parametre Tahmini" "M. Emin İnal", "Derviş Topuz", "Okyay Uçan" [8] Dr. Göknur Büyükkara "http://www.acikders.org.tr/pluginfile.php/34 96/mod_resource/content/2/Kredi_Riski.pdf" Sayfa Görüntüleme Tarihi: 10.12.2012 [9] Yemeklik Yağ Sektöründe Tüketici Davranışlarını Etkileyen Faktörlerin Analizi Dr. Flora POLAT [10] Multinomial Logit Modeller Ve Bir Uygulama. Sevilay Karahan "Biyoistatistik Programı" Yüksek Lisans Tezi [11] M. A. Aydın, Bilgisayar Ağlarında Saldırı Tespiti için İstatistiksel Yöntem 10