Resul DAŞ 1, İbrahim TÜRKOGLU 2, Mustafa POYRAZ 3 1 Fırat Üniversitesi, Enformatik Bölümü, 23119, ELAZIG, rdas@firat.edu.tr



Benzer belgeler
GENETİK ALGORİTMA YÖNTEMİYLE INTERNET ERİŞİM KAYITLARINDAN BİLGİ ÇIKARILMASI

YZM 5257 YAPAY ZEKA VE UZMAN SİSTEMLER DERS#6: GENETİK ALGORİTMALAR

Zeki Optimizasyon Teknikleri

Web Madenciliği Teknikleri

GENETİK ALGORİTMA ÖZNUR CENGİZ HİLAL KOCA

GENETİK ALGORİTMALAR. Araş. Gör. Nesibe YALÇIN BİLECİK ÜNİVERSİTESİ

19 (4), , (4), , Fırat Üniversitesi, Mühendislik Fakültesi, Elektrik-Elektronik Mühendisliği Bölümü

VERİ MADENCİLİĞİNE BAKIŞ

VERİ MADENCİLİĞİ (Web Madenciliği)

Web Server Sunucu Loglarının K-Komşu Algoritması ile İ ncelenmesi

Gezgin Satıcı Probleminin İkili Kodlanmış Genetik Algoritmalarla Çözümünde Yeni Bir Yaklaşım. Mehmet Ali Aytekin Tahir Emre Kalaycı

BİR WEB SİTESİNE AİT KULLANICI ERİŞİM KAYITLARININ WEB KULLANIM MADENCİLİĞİ YÖNTEMİYLE ANALİZİ: FIRAT ÜNİVERSİTESİ ÖRNEĞİ

Mobil Cihazlardan Web Servis Sunumu

Web Madenciliği (Web Mining)

Script. Statik Sayfa. Dinamik Sayfa. Dinamik Web Sitelerinin Avantajları. İçerik Yönetim Sistemi. PHP Nedir? Avantajları.

Web Sayfasında Google Analitik Kullanımı ve Kullanıcı Davranışlarının Belirlenmesi: İstanbul Ticaret Üniversitesi Kütüphane Web Sayfası.

Google Maps ve Genetik Algoritmalarla GSP Çözümü İçin Öneri

Genetik Algoritmalar. Bölüm 1. Optimizasyon. Yrd. Doç. Dr. Adem Tuncer E-posta:

FIRAT ÜNİVERSİTESİ PERSONEL OTOMASYONU

Fonksiyon Optimizasyonunda Genetik Algoritmalar

1 Temel Kavramlar. Veritabanı 1

Fırat Üniversitesi Personel Otomasyonu

SIRA NO SORUMLU BİRİM FAALİYET SORUMLU DURUM AÇIKLAMA

GENETİK ALGORİTMALAR BÜŞRA GÜRACAR

Genetik Algoritmalar (GA) Genetik Algoritmalar Đçerik Nesin Matematik Köyü E rim Ç lı l ş ı ta t yı Nisan, 2012 Mustafa Suphi Erden

Veritabanı Dersi. Teoriden Pratiğe. Çağıltay N.E., Tokdemir G. Veritabanı Sistemleri Dersi -Bölüm XXV: Web'den Erişim Çağıltay, N., Tokdemir, G.

WEB KULLANIM MADENCİLİĞİ UYGULAMASI

VERİ KAYNAKLARI. Bilgi sisteminin öğelerinden biride veri

LOGO İş Zekası çözümü ile kurumsal raporlama ve analizler. Cem Yılmaz Genel Müdür LOGOBI Yazılım

UZAKTAN EĞİTİM MERKEZİ

MOODLE UZAKTAN ÖĞRETİM SİSTEMİ

Türkiye Barolar Birliği internet sitesi

BİH 605 Bilgi Teknolojisi Bahar Dönemi 2015

Veritabanı Uygulamaları Tasarımı

METASEZGİSEL YÖNTEMLER. Genetik Algoritmalar

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI

İnternet Programcılığı

1 Temel Kavramlar. Veritabanı 1

(Bilgisayar ağlarının birbirine bağlanarak büyük bir ağ oluşturmasıdır)

Serdar BİROĞUL YÜKSEK LİSANS TEZİ (ELEKTRİK EĞİTİMİ) GAZİ ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ ANKARA

Büyük, Dağıtık, Veri Yoğunluklu Uygulamalarda Programlama Paradigmaları

Mekatronik Mühendisliği Uygulamalarında Yapay Zekâ. Ders 1- Yapay Zekâya Giriş. Erhan AKDOĞAN, Ph.D.

Programın Adı: Eğitim ve Öğretim Yöntemleri Proje/Alan Çalışması. Diğer Toplam Kredi AKTS Kredisi

Eskişehir Osmangazi Üniversitesi İnşaat Mühendisliği Bölümü Akademisyenler İçin Dinamik Web Sistemi Uygulaması

SQUİD PROXY İLE GERÇEK ZAMANLI WEB TRAFİK KONTROLÜ

CELAL BAYAR ÜNİVERSİTESİ KÜTÜPHANE VERİTABANLARINA ÜNİVERSİTE DIŞINDAN ERİŞİM

CBS ve Coğrafi Hesaplama

Veritabanı Yönetimi Bilgisayarların. Keşfi Hedefler. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi

Üst Düzey Programlama

LOG PreProcessing: Web Kullanım Madenciliği Ön İşlem Aşaması Uygulma Yazılımı

Turquaz. Açık kodlu muhasebe yazılımı Turquaz Proje Grubu

ICATT ÇEVİRİ UYGULAMASI SİSTEM MİMARİSİ VE VERİTABANI TASARIMI

GENETİK ALGORİTMALARA GİRİŞ (II) BİNARİ KODLANMIŞ GA

DİZİN. Not: Koyu harfle yazılan sayfalar ilgili terimin yoğun olarak geçtiği sayfaları göstermektedir.

Dersin Konusu ve Amaçları: Ders P lanı: Bölüm 1: Bilgi Teknolojilerinde Temel Kavramlar

Veri Tabanı Yönetim Sistemleri Bölüm - 3

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

ENFORMATİK Dersin Amacı

Ülkemizdeki Üniversite Web Sayfalarının Siber Güvenlik Açısından Hızlı Bir Değerlendirmesi

Yazılım Çeşitleri. Uygulama Yazılımları. İşletim Sistemleri. Donanım

Algoritma Geliştirme ve Veri Yapıları 9 Ağaç Veri Modeli ve Uygulaması. Mustafa Kemal Üniversitesi

Yardım Masası Kullanım Klavuzu

Zeki Optimizasyon Teknikleri

=A1+A2-A3, =A1*A2/A3,

BİLGİSAYAR MÜHENDİSLİĞİ DOKTORA DERS PROGRAMI (Lisanstan gelenler için)

Veritabanı. Ders 2 VERİTABANI

Demetleme Yönteminin Y 3-Katmanlı Mimari Yapı ile Gerçeklenmesi. eklenmesi. KalacakYer.com

Bölüm 10: PHP ile Veritabanı Uygulamaları

Defterdar Teknik Doküman

İnternet ve İnternet Tarayıcıları BİLGİ VE İLETİŞİM TEKNOLOJİSİ DERS NOTU - 2

PAPERWORK TEKNİK MİMARİ

TS EN ISO EŞLEŞTİRME LİSTESİ

Fırat Üniversitesi Hastanesi Dinamik Web Sayfası

Aktarımı Çalıştırmak/Geri Almak 146 Alan Seçenekleri 148 Veri Tabanı Şeması 150 Veri Tabanı ile İlgili Bazı Rake Görevleri 162 Modeller 164

Web Tasarımının Temelleri

Harmanlanmış Bilgisayar Dersinde Öğrencilerin Sınav Günü İnternet Hareketliliği

YAŞAR ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ 4 YILLIK EĞİTİM PLANI ( AKADEMİK YILINDAN İTİBAREN GEÇERLİDİR)

Üst Düzey Programlama

Akdeniz Üniversitesi

Bilecik Üniversitesi Mühendislik Fakültesi Moodle Uzaktan Öğretim Sistemi

POWER BI. Power BI Bileşenleri: Power BI'daki İş Akışı

YÖNETİM BİLİŞİM SİSTEMLERİ BÖLÜMÜ YENİ DERS MÜFREDATI (1) FAKÜLTESİ: İŞLETME FAKÜLTESİ / BUSINESS SCHOOL

WEB 2.0 ARAÇLARINI TANIMAK

MAYIS 2010 ÖZGÜR DOĞAN İŞ GELİŞTİRME YÖNETİCİSİ KAMU SEKTÖRÜ

30 Mayıs ETASQLMNG Programına giriş

Akdeniz Üniversitesi


Web Tabanlı Öğretim Materyallerinin Web Kullanım Madenciliği ile Analiz Edilmesi

Web Madenciliği (Web Mining)

BLM 4811 MESLEKİ TERMİNOLOJİ II Salı , D-109 Dr. Göksel Biricik

1.PROGRAMLAMAYA GİRİŞ

Hidayet Takçı * ve İbrahim Soğukpınar **

Beykent Üniversitesi Mühendislik ve Mimarlık Fakültesi Yazılım Mühendisliği. Movie Prediction

Akademik Özgeçmiş Tabanlı Fakülte Bilgi Sistemi

Merkezi İşlem. Birimi

Bilgiyi Keşfedin! Özelleştirme, Eklenti ve Veri Entegrasyonu Kurumsal Seviyede Yönetim ve Performans

İNTERNET PROGRAMCILIĞI HAFTA MYSQL - PHPMYADMIN. Hazırlayan Fatih BALAMAN. İçindekiler. Hedefler. Mysql Nedir.

İÇİNDEKİLER. YAZARLAR HAKKINDA... v. RESİMLER LİSTESİ...xv. 1.1.Bulut Bilişim Kavramının Analizi...1 BÖLÜM 1: TEMELLER...1

Mendeley Eğitim. Sunanın Adı :Kocaeli Üniversitesi Kütüphane ve Dokümantasyon Daire Başkanlığı Sunu Tarihi : 2016

Tarih Saat Modül Adı Öğretim Üyesi. 01/05/2018 Salı 3 Bilgisayar Bilimlerine Giriş Doç. Dr. Hacer Karacan

Transkript:

SAÜ Fen Bilimleri Enstitüsü Dergisi 1 O Cilt, 2Sayı, s 67-7 2, 2006 Kayıtlarından Bilgi Çıkarılması R Daş GENETİK ALGORİTMA YÖNTEMİYLE INTERNET ERİŞİM KA YITLARINDAN BİLGİ ÇIKARILMASI Resul DAŞ 1, İbrahim TÜRKOGLU 2, Mustafa POYRAZ 3 1 Fırat Üniversitesi, Enformatik Bölümü, 23119, ELAZIG, rdas@firatedutr 2 Fırat Üniversitesi, TEF, Elektronik Bilgisayar Eğitimi Bölümü, iturkoglu@firatedutr 3 Fırat Üniversitesi, Müh Fak Elektrik-Elektronik Mühendisliği, mpoyraz@firatedutr OZET Internet kullanıcılarının davranış bilgileri, internet sunuculannda ham veriler şeklinde tutulmaktadır Bu kullanıcı erişim kayıt örüntülerinden yararlı bilginin keşfı ve analizi web madenciliği olarak tanımlanabilir Bu çalışma da, kullanıcı erişim kayıt (log) dosyasındaki ham veriler düzenlenerek, genetik algoritma yöntemi ile bu verilerden istatistiksel bilgi çıkarımı yapılmıştır Böylece, Internet kullanıcılarının en fazla kullandığı veritabanı adres bilgisi tespit edilmiştir Anahtar Kelimeler: Genetik Algoritma, Bilgi Çıkarımı, Web > Internet Erişim Kayıtları INFORMATION EXTRACTING FROM INTERNET ACCESS LOGS BY GENETIC ALGORITHM METHOD ABSTRACT The information on the behaviors of Internet users is sav ed on servers as ra w data The discovery and analysis of useful information from these user access logs patterns can be defined as Web Mining In this study, raw data in user access lo gs files were disposed and statistical information extraction was performed from these data by genetic algorithm method In this w ay, address link database which Internet users us ed most was d etermin ed Keywords: Genetic Algorithm, Information Extraction, Web Mining, Internet Access Logs ı GİRİŞ Internet (World W ide Web) dünya üzerinde var olan en büyük bilgi paylaşım ortamıdır Günümüzde birçok kişi, kurum ve kuruluşlar bilgi paylaşımlarını Internet üzerinden yapmaktadırlar Böylece Internet üzerindeki veri miktan da hızlı bir şekilde artmaktadır Yı ğın la biriken bu verilere bilgisayar kullanıcılarının kolayca erişebilmesi ve bu verileri kullanabilmesi için web madenciliği yöntemleri kullanılmaktad1r Web verilerinden sıralı öıüntülerin bulunması, ilginç kullanıcı bilgilerinin çıkarılması gibi birçok çalışma geçmiş yıllarda yapılmış ve farklı yakl ımlar sunulmuştur Uğuz v d yaptıkları çalışmada, web sunucusunun sistem erişim kayıtlarına web kullanım madenciliği sistemini ve veritabanı yaklaşımı kullanılarak web sayfası ziyaretçilerinin en sık eriştiği sayfa çiftjerini, Universite içi ve dışı kullanıcı erişim dağılımı gibi tanımsal ilişkileri tespit etmişlerdir [1] Chen ve Syncara geliştirdikleri Web Mate adlı sistemlerinde, web sayfalarını inceleyerek, web 67 içeriğinden kullanıcı ilgilerini belirlemeyi sağlamışlardır [2] Böylece web üzerinden arama işlemlerinde kolaylık sağlamışlardır Şakiroğlu v d yaptıkları bir makale çalışmalarında, web erişim kayıt dosyalarından genetik algoritrna yöntemiyle sıralı erişimleri tespit etmişlerdir [3] İş eri tarafından yapılan tez çalışınasında, geliştirdiği yazılım ile web günlüğünden zaman sınırlı bulanık bağıntı kuralları ve sıralı örüntülerin çıkarılmasını sağlamıştır [7] Benzer şekilde yap1lmış bu tür çalışmalarda akıllı bilgi çıkarım teknikleri kullanılmıştır [ 4] Bu çalışmanın amacı, Fırat Üniversitesi Bilgi İşlem Daire Başkanlığı bünyesindeki Internet sunucularında metin dosyası olarak tutulan kullanıcı erişim kayıtlarından yararlanarak, genetik algoritma yöntemi ile kampus Internet kullanıcılarının en çok kullandığı akademik veritabanı adres bilgisinin bulunınasıdır Kullanıcı erişim kayıt dosyalarından akıllı bi lgi çıkarun işleminde genetik algoritma yöntemi kullanılmıştır Bu çalışma uygulaması ile düzenlenen kullanıcı erişim kayıtları içinde yer alan binlerce adres

SAÜ Fen Bilimleri Enstitüsü Dergisi 10 Cilt, 2Sayı, s 67-72, 2006 Genetik Algoritma Yönteıniyle Internet Erişim Kayıtlarından Bilgi Çıkarılması R Daş bilgisi, bilinen veritabanı adres bilgileriyle karşılaştırılmış ve eşleşen bilgi kayıtlarına göre analiz işlemi yapılmıştır Makale 5 bölümden oluşmaktadır Makalenin 2 bölümünde sistemi geliştirmede kullandığımız yöntemlerle ilgili teorik bilgi, 3 bölümünde yapılan uygulamanın aşamaları, 4 bölümünde uygulama sonuçları ve 5 böltimünde ise yapılan çalışmanın değerlendirmesi ve öneriler sunulmuştur Web Yapı Web Web Kullarnrn Web Içerik 111 Web II TEORİK BİLGİ XML Şema Kişiselleştinne Kümeleme Kullanıcı Profıli Birliktelik Kuralı HTML Doküman Müşteri Profıli Anlamsat Web Internet'ten bilgi çıkarımı ve bilgi keşfı işlemleri, web madenciliğinin önemli bir alanıdır Web madenciliği, web kayıt dosyalarında ihtiyaç duyulan yararlı bilgilerin çıkarılması ve değerlendirilmesi işlemidir Internet'te var olan verilerin sürekli olarak değişmesi, güncellenmesi ve yeni bilgilerin eklenmesi web den bilgi çıkarımı işleminde karşılaşılan bir zorluktur Web sayfalarının bu dinamik Kılavuz İş Zekası Sistem Geliştirme Öneriler E Ticaret izinsiz Arama Web Temsilcileri Web Sayfası lçerik AramaSonuç Metiıı Resim yapısından dolayı web den bilgi çıkarımı, normal metin tabanlı dokümanlara göre daha zordur Şekil 1 'de görüldüğü üzere, web madenciliği genel olarak Uç alt başlıkta kategorize edilebilir Web İçerik : Video, ses, görüntü, bağlantılı ve bağlantısız metinler içeren ve çoğu belli bir düzene sahip olmayan çoklu web dokümanlarından otomatik bilgi çıkarımı web içerik madenciliği ilgi alanına girmektedir Web içerik madenciliği, bu verilerden anlamlı sonuçlar elde etmek için kullanılan akıllı programlardır Bu programların amacı, web sayfalarında dolaşarak, bilgiler toplamaktır Google, Lycos, Altavista gibi bilinen çeşitli arama motorları bu tekniklerden faydalarımaktadır lar [3] Web Yapı : Web sayfaları arası ya da bir web sayfasındaki bağlantılar (grafik-yazı, grafik-grafik, resimyazı vb) arasındaki ilişkileri inceleyerek sonucunda bilgi üretir O rneğin, önemli web sayfaları belirtilirse, Google arama motoru da tarama sonucunda o sayfaları bulduğunda öneınli olarak işaretler Web içerik madenciliği web sayfasının içeriği ile ilgilenirken, web yapı madenciliği ise doğrudan web sayfaları arasındaki bağlantıları inceler [3] Web Kullanım : Bu metot ile veri madenciliği yöntemleri kullanılarak, web sunucularında tutulmuş olan erişim kayıtları verilerinden otomatik bilgi keşfi yapılmaktadır!(ullanıcı taleplerine vermiş olduğu hizmetlerin yeterliliği, web sayfalarının kullanma durumlarını, kullanıcıların oturumları ve davranışları tarafından üretilen verilerin incelenmesiyle gibi durumları inceler Web içerik ve web yapı madenciliği web de birincil veriyi (gerçek veri) kullanırken, web kullanım madenciliği ise kullanıcılar web ile etkileşim halindeyken etkileşimlerinden sağlanan ikincil veriyi kullanır Web kullanım verisi, web sunucu erişim kayıtları, Proxy sunucu kayıtları, tarayıcı kayıtları, kullanıcı profilleri, çerezler, fare klikleri ve sayfa kaydırınalar ve etkileşim sonuçları gibi verileri içerir [8] Şekil 1 Web nin Sınıflandırılması [8] 112 Web l(ayıt Dosyaları Web kayıt dosyaları sunucu platformundan bağımsız metin tabanlı dosyalardır Dört çeşit sunucu kayıt dosyası vardır Bunlar: Erişim Kayıt Dosyaları (Access Log) Hata Kayıt Dosyaları (Error Log) istek Kayıt Dosyaları (Referrer Log) Etmen Kayıt Dosyaları (Agent Log) Internet kullanıcı davranışlarını erişim kayıt dosyaları, sunucu üzerinde meydana gelen hatalı işlemleri hata kayıt dosyaları, kullanıcı isteklerini istek kayıt dosyaları, kullanıcının kullandığı Internet tarayı cısının adı, sürümü ve işletim sistemi hakkındaki bilgileri etmen kayıt dosyazarz tarafından tutulmaktadır [3] Bir Internet uygulamasında, web kayıt dosyaları içerisinde bilgi değişiklikleri (kayıt ekleme, kayıt güncelleme ve kayıt silme gibi) olabilir Bu durumda, tüm veri tabanının defalarca taranıp sık kullanılan öğelerin bulunması hem çok vakit alıcı hem de çok gereksiz o lacaktır Bu nedenle, sadece değişen kay ı tl ar daki sık kullanılan öğe kümesini güneellernek ve buna göre ilginç örlintüleri keşfetmek için yeni algoritmalara ihtiyaç duyulmaktadır 113 Gen etik Algoritmalar Genetik algoritmalar, değişik planlama teknikleri ile bir fonksiyonun optimizasyonu veya ardışık değerlerin tespitini içine alan birçok problem tipleri için çözüm arama yöntemidir Genetik algoritmalar, en iyinin korunumu ve doğal s eç il im ilkesine dayanarak, benzetim yoluyla bilgisayarlara uygulanan ve bilgisayar üzerinde oluşan bir evrim şeklidir Bu metot uzun çalışmaların neticesinde ilk defa John Halland tarafından uygulanmıştır [5] Genetik algoritnıaların amacı, hem problemleri çözmek hem de evrimsel 68

SAÜ Fen Bilimleri Enstitüsü Dergisi 10 Cilt, 2Sayı, s 67-72, 2006 Genetik Algoritma Yöntenliyle Internet Erişim Kayıtlarından Bilgi Çıkarılması R Daş sistemleri modellemektir Genetik algoritmanın kullanım alanları her geçen gün artmakta olup, genetik algoritmanın ten1el işlemleri aşağıda adımlar halinde sıralanmıştır: Rasgele olarak başlangıç popülasyonu oluşturulur Burada, oluşturulan popülasyon O 1 aralığındadır - Daha sonra bireyler O yada 1 'e yuvarlanır Rasgele oluşturulan bireylerin her biri uygunluk fonksiyonunda yerlerine konularak değerlendirilir Yani, bireyler amaç fonksiyonundan geçirilir Bu işlem, bireylerin iyi olup olmadığını tespit etme işlemidii' Uygunluk fonksiyonu, belirlenen çözümlerin uygunluk derecelerinin ölçütınesini sağlayan bir fonksiyondur Her problem için ayrı bir uygunluk fonksiyonunun belirlenmesi gerekmektedir Bireylere seçim yöntemi uygulanır Seçim işleminde amaç, seçilen uygunluk fonksiyonuna ve seçim yöntemine göre elimizdeki popülasyondan yeni bir neslin bireylerinin seçilmesidir Bu seçimde uygunluğu yüksek olan bireyin, yeni nesle aktarılma ihtimali de daha yüksek olacaktır Böylece bireylerin (kromozomlar) en uygun olanı hayatta kalırken diğerleri de yok olmaya n1aruz kalacaktır Bireylere çaprazlama (gen takası) yöntemi uygulanır Çaprazlamanın ön adımı olarak çaprazlanacak bireyler eşierne süreciyle belirlenir Eşleme sürecinde, seçilen kromozomların yeni nesil oluşturma işlemine çaprazlama denir Bir problem çözüm uzayından kaç adet kromozomun çaprazlanacağı çaprazlama oranına göre belirlenmektedir Bireylere Mutasyon yöntemi uygulanır Çaprazlama sonucunda farklı çözümlere ulaşmak bazen zor olmaktadır Yeni çözilm aramanın kolaylaştırılması ve aramanın yönünü değiştirmek amacı ile bir kromozomun bir elemanıntn değiştirilmesi işlemidir Bir problem havuzunda kaç kromozomun mutasyona uğratılacağına mutasyon oranına göre karar verilmektedir Yukarıdaki yöntemler uygulanarak değişime uğramış, yeni bireylere yer açın* için eski bireyler çıkartılarak sabit büyüklükte yeni bir poptilasyon oluşturulması sağlanır Şanuçta popillasyonun hesaplanması sırasında en iyi birey bulunduğunda çözüm elde edilmiş olur Genetik algoritma ile yapılan uygulamalarda her örnek için tek sonuç üretilir Tek sonuçta bir kromozoma karşılık gelir III INTERNET ERİŞİM KAYITLARINA GENETİK ALGORİTMA YÖNTEMİNİN UYGULANMASI Internet sunucularında tutulan kullanıcı erişim kayıt dosyalarına web kullanım madenciliği kapsamında genetik algoritma yöntemini uygulayarak, kampus Internet kullanıcılarının en çok gezindiği akademik veritabanı adres bilgisinin tespiti yapılıruştır bilgi çıkarımı yapılmıştır Uygulamada kullanılan web madenciliği sisteminin yapısı Şekil2'de gösterilmiştir Temizlenen Erişim Kayıt Dosyası Verilerin Alınması ı-== Verilerin Temizlenmesi Şekil 2 Web Kullanım Mimarisi Verilerin Alınması: Fırat Üniversitesi Bilgi İşlem Daire Başkanlığı bünyesinde Proxy sunucusunda kaydı tutulan erişim kayıt dosyası üzerinde uygulama yapılmıştır Şekil 3 'de, sunucu üzerinde tutulan erişim kayıt dosyasının metin şeklindeki düzensiz biçimi görülmektedir CP_IMS_HIT/304 253 GET http://imgsabahcomtr/i/topbar_kaydetgif - NONE/- image/gifo11623 4612 106220 TCP_IMS_HIT/304 254 GET http://imgsabahcomtr/ı/ya2ar_yukarigıf - NONE/- 0 1335 GET http://anketmemurlarnet/ima g es/common/member6gif- NONE/- image/gifd1162361 7 7 200 6040 GET ht t p ://img245imageshackus;my php?- DIRECT/389976207 text/html o1162361772 106220 TCP_IMS_HIT/304 253 GET http://imgsabahcomtr/i/y/t/0002gif - NONE/- image/gif 254 GET http://imgsabahcomtr/i/tumhisseler_hdrgif - NONE/- image/gifd1162361772626 rswebclubhousecom/club/chat_memberphp?- OIRECT/19323990199 text/htm l 0116236177268S 6220 TCP_IMS_HIT/104 253 GET http://wwwsabahcomtr/i/anket_icin_tiklayiniz gif - NONE/ M_HIT/200 1110 GET http://www sabahcomtr/2006/11/01/gny/im/0647977a493ab745a63de345egif /302 615 GET http://ade-ko1aynet/getada2?- DIRECT/836616010 text/htmld1162361772940 - MISS/200 44604 GET http:// vinternethabercom/news_detai l php? - DIRECT/891062467 tex http://anktmemurlarnet/images/piechartaspx? - DIRECT/209851099 image/gifo11623617730 101162361773086 650 106295 TCP_MISS/200 381 GET http://kpssosymgovtr/defaultaspx _MISS/200 312 GET htt p ://adssabahcomtr/adserver/adlogads?- DIRECT/213745114 image/g 239 text/htmloll62361773 200 54 101323 TCPYliSS/200 381 GET http://kpssosymgovtr 106220 TCP_IMS_HIT/304 253 GET http://wwwsabahcomtr/i/_spacergif - NONE/- image/gifo: p://kpssosymgovtr/defaultaspx - DIRECT/193140115113 text/htmloll62361773344 98 Şekil 3 Erişim Kayıt Dosyasından Bir Kesit Verilerin Temizlenmesi: Karmaşık ve düzensiz bir biçimde bulunan erişim kayıt dosyasındaki verilerin ayıklanarak, 69 belirli bir düzende tablo haline getirilmesi için Squid Analysis Report Generator (SARG) programı

SAÜ Fen Bilimleri Enstitüsü Dergisi 10 Cilt, 2Sayı, s 67-72, 2006 Kayıtlarından Bilgi Çıkarılması R Daş kullanılmıştır [ll] Bu program kullanılarak Internet kullanıcı erişim kayıt dosyası çağrılrnıştır Pedro Lineu Orso tarafından C programlama dilinde yazılmış olan SARG programı, Linux ve Unix tabantı işletim sistemlerinin bulunduğu sunucularda çalışmaktadır [ll] Bu program Şekil 4 de görüldüğü gibi, sunucu üzerindeki metin tabanlı dosyaları alıp, belli bir düzende tablo haline dönüşturerek HTML formatında oluşturulmasını sağlamaktadır Şekil4 SARG Programı ile Düzenlenmiş Kullanıcı Kayıtları Verilerin Bütünleştiri/mesi: HTML biçimdeki kullanıcı kayıt verileri, Şekil 5 de görüldüğü gibi MS Excel programı kullanılarak artık verilerden ayı larunıştır MS Excel dosyası (XLS) biçimine dönüştürülmüş verilerden, istenilen bilgilerin çıkarılabilmesi için bu veriler MA TLAB programı kullanılarak veritabanına aktarılmıştır Daha sonra MA TLAB programında genetik algoritma yöntemi kullanılarak yazılan program ile istenilen bilginin çıkarımı yapılmıştır Bu uygulama da, kamp us ağındaki Internet kullanıcıları tarafından en çok kullanılan akademik veritabanı bilgisi bulunmuştur '", : : : :: - --, ' ', :; t ;, '$" ', - s:ı, < _- _ - ;_, /"> ', 1 O HlooooooOooo" o ooo o o''"' o oooh" ooo o o oooo 4 o 00 o o oooo ooo o}/': O,,,o h o o,, oooooloui I o - -,,,, o _}loooo,, r ;a,:=ı "' Jf "; w"1qf"p' '1'Çf " :, :,,,ıi'" '/n'i,y ;"' ", { :,,,,; : ;;, )! '"1 '- *- :,,_,,, :!:_'-, >< " s, < -\ts '" A - - r;{i, ; : of ',;,, ), ';ı:-5' :'-'t,',: x - -- -",,! o{ :; _-l( -<Y: : ' kr -,v ; H,- ", >O:): -:_,, _ c"v n >' ( t( -1' -- <, _,_ o"' "0,,,,;;,o_A o- oo o oo: j,ıj_oo,, :, oio0o :: \»ı;'y, X!':lloo o : ;;J;, Ul ;,/f J::A:, t',o /! ll'o< "' '":" ) 1 http:/lwwẉ sclencedlrectcom wwwfiratedutr ; : ; -c 2 http ://lslkn owledg6 c om 3 http:jiwww3lntersclencewlleycom/cgl-blnlhome 4 http:l/www3intersciencewileycomljournalfinderhtml 5 http :J/wwwacsorg 6 http :/fpubsacsorg/abouthtml 7 http:j/p_ubsacsorg/joumals/querylsubscribersearchjsp llttp 8 :IItaylorandfranclsmetapresscom 9 http :lljournalsonllnetandfcouk 10 http ;1/llnkSJ?tingerde 11 http://wwwsprlngerllnkcom 12 http :flwwwblackwell-synergycom 13 lıi4,ı :JIIeeexploreleeeorgfXplore/OynWelJsp 14 http lfsite e braryt omlliblfirat 15 http :Jiwwwulakbimgov trtcabimlvt/ 16 http ://www engin e erlngvlllage2 org -- - _, -"'- -- 1 - --, ------ -,,,,,,_,,,, _,,- - "''', v -- "' - - -- - OOO -U0000000 0o-o00 H 0000-000000000000 OOOOo000o0 00ooOOOoOoOo-OOO>o, 000000 000000 o> 00h0000000000o www hurrlyetcomtr http:j/wwwsclencedlrectcom downloadwjndowsupdatecom ; 0 ::, o o o o o o o O O ol lo o#,, ';, 4 o t_, owoo http :JJleee xploreleeeorg/xplore/d_y_nw &ljsp radmsncom wwẉ google-analytlcscom wwwlnternethabercom wwẉ googlecom http :/lwwwsclencedlrectcom wwwsabahcomtr wwwflratedutr downloadwlndowsupdate com http :JJiinkspringerde wwwankaraedutr wwwsabahcomtr http :l/wwwsciencedlrectcom http :7/wwwulakblm ovtr http:1/wwwbasbakanlikgovtr http:l/wwwblrsesnet Şekil 5 MS Excel Programı ile DOzenlenmiş Web Kayıtları Tekrarlı örüntü/erin bulunması: Uygulamanın bu aşamasında, düzenlenmiş veritabanına genetik algoritma yöntemini uygulayarak kullanıcılar arasında en çok ziyaret edilen web sayfası adresinin bulunması 70

SAÜ Fen Bilimleri Enstitüsü Dergisi 1 O Ci lt, 2Sayı, s 67-72, 2006 Kayıtlarından Bilgi Çıkarılması R Daş amaçlanmıştır MA TLAB programında kodlanarak, uygulaması yapılan genetik algoritma metodunun adımları aşağıda sıralanmıştır: ladzm- Kodlama: Internet kullanıcıları tarafından en çok ziyaret edilen web sayfasının bulunınası amacıyla program kodlaması yapıln1ıştır Bu kodlama işlemini yaparken, a : anan sa fa için ikili kod verilmiştir Uygulamada en çok zıyaret edılen tek web sayfası arandığı için 8 bitlik kodlama yapılmıştır B ir sayfanın kodlanmas ında, bulunması muhtemel 256 sayfayı gösterebilecek 8 bitlik ikili kodlama kullanılmıştır Birlikte en çok ziyaret edilen ilk 5 sayfa aranacak olsaydı, 40 bitlik kodlama işlemi yapma duruınunda olacaktık Bu arama uzayında arama yapmak üzere oluşturulacak populasyonun büyüklüğü 1 O kromozom olarak belirlenmiştir 2Adım - Uygunluk Fonksiyonu: Uygunluk fonksiyonu olarak Internet kullanıcılarının en çok girmiş olduğu web sayfasının tespiti aınaçlanmıştır Bunun için program içerisine dahil edilen düzenli erişim kayıt dosyasında o kromozomun (web sayfasının) kaç defa tıklanmış olduğunun tespit edilmesidir Her bir kromozomun metin sütunu içerisinde kaç defa tıklanrnış olduğunu bulmak, bize uygunluk fonksiyonunu verir Adres sayfası olarak da, kron1ozomlar arasındaki uygunluk fonksiyon değeri en büyuk olan alınır Uygunluk fonksiyonunda kullanılan parametrelerin anlamları aşağıda belirtilmiştir UF(x) T K(ti) =Temel Uygunluk =Veri tabanı dosyasındaki işlemlerin toplam sayısı = En fazla ziyaret edilen veritabanı adresinin toplam işlemler içindeki bulunma oranı T M= LK(ti) UF 1 M i== ı = Aranan sayfa adresi = M 1 T =Bütün K(t;) oranlarının toplamı 3 Adım - eçim: Uygunluk fonksiyonundan gelen bireyin bır sonrakı nesıle aktanlmasına karar vermek için Rulet Tekeri yöntemi kullanılmıştır İlk olarak tüm kromozomların amaç fonksiyonlarının toplamı bulunur Her bir kromozomun seçilme olasılıkları ve birikimli olasılık değerleri bulunduktan sonra 1 'den lo'a kadaro-ı Aralığında rasgele sayılar atanır Bu sayılar birikimli olasılık değerleriyle karşılaştırılır Bunun sonucunda istenilen kromozomlar seçilir 4Adım - Çapraz/ama: Popülasyondaki tüm elemanlar? apra lama işlemine tabi tutulmuştur Çaprazlama tşlemıne, tek noktalı çaprazlama yöntemi uygulanmıştır Nokta olarak ise bireylerin 4geninden sonrası seçilmiştir 5Adun - Mutasyon: Popülasyonda çeşitliliği sağlayan en önemli faktörlerden biri olan mutasyon işlemi için ı kromozomun 5 gen i dikkate alınarak yapılmıştır IV UYGULAMA SONUÇLARI Proxy sunucusu üzerinde tutulan Internet kullanıcı erişim kayıt dosyasırun günlük bilgi kaydının sıkıştırılmış boyutu yaklaşık olarak 250 MB büyüklüğundedir Proxy sunucu üzerindeki erişim kayıt dosyası büyüdükçe, SARG programı ile sıkıştırılıp yedeği alınmaktadır Bu metin kayıt dosyası yüz binlerce satır karakterlerden oluştuğu için dosyanın herhangi bir metin programı ile açılması oldukça güç, bilgilerin anlaşılması da zordur Bu nedenle verilerdeki kodlar ve numaralar programlarla analiz edilip, anlamlı veriler ortaya çıkarılmaktadır Uygulaınada, Proxy sunucusundan dosyaların alınması ve düzenli tablo haline getirilmesi işlemlerinde C++ programı ile yazılmış olan SARG programı kullanılmıştır HTML dosyası biçiminde düzenli tablo halinde bulunan kullanıcı verileri, MS Excel programı ile artık verilerden temizlenmiştir Kampus ağı Internet kullanıcılarına açık olan akademik veritabanı adres bilgileri, kütüphane sayfasından alınarak düzenli MS Excel dosyasında yeni bir sütun bilgisi olarak eklenmiştir Genetik algoritma yöntemiyle MA TLAB da yazılan program, bu düzenli ve temizlenmiş MS Excel dosyasını kendi veritabanına aktarmıştır Daha sonra program, web sayfası adres bilgilerini MA TLAB veritabanından okumuştur Genetik algoritma yöntemi kullanılarak yazılan programda, Internet kullanıcı erişim kayıtlarından Inten1et kullanıcılarının en çok kullandığı akademik veritabanı adresi bulunmuştur V SONUÇ Internet kullanımının yaygınlaşması, Internet sunucuları üzerinde tutulan verilerin de hızlı bir şekilde artmasına neden olmuştur Web kayıt dosyaları olarak saklanan bu metin tabanlı verilerin analiz edilerek faydalı bilgilerin çıkarılması ve yorumlanması Web Madenciliğ teknikleriyle gerçekleştirilmektedir Bu çalışmada, Fırat Üniversitesi Proxy sunucusundan alınan Internet kullanıcı erişim kayıtlarına web kullanım madenciliği uygulanarak, akıllı bilgi çıkarımı için genetik algoritma yöntemi ku1lanılmıştır Sonuçta, kampus Internet kullanıcılarının en çok kullandığı akademik veritabanı adres bilgisinin tespiti yapılmıştır Yazılan bilgisayar programı geliştirilerek, Internet kullanıcıları arasında en çok ziyaret edilen web sayfa grubu, web sayfaları içerisinde ulaşılamayan web adreslerinin (kırık bağlantılar) tespiti, kullanıcıların en çok zaman geçirdiği Internet sayfaları gibi bilgiler bulunabi ı ir 71

SAÜ Fen Bilimleri Enstitüsü Dergisi 10 Cilt, 2Sayı; s 67-72, 2006 Kayıtlarından Bilgi Çıkarılması R Daş TEŞEKKÜR Makale uygulamamızda kullanmış olduğumuz Internet!'- llanıcı erişim kayıt dosyalarını, tarafımıza sağlayan Fuat Uni ersitesi Bilgi İşlem Daire Başkanlığı' na teşekkür ederız [ı] [2] [3] [4] [5] [6] KAYNAKLAR Uğuz, H, Kodaz, H, Saraçoğlu, R, Baykan, ÖK, "Genetik Algoritmalar Kullanılarak Web Kullanım Yönteminin Sistem Log Kayıtlarına Uygulanması", International XII Turkish Symposium on Artificial Intelligence and Neural Networks-TAINN 2003, T-1, s 45-47, (2003) Chen L, Sycara K, "WebMate: A Personal Agent for Browsing and Search ing", The Second International Conference on Autonomous Agents, ACM, (1998) Şakiroğlu, AM, Tuğ, E, Bulun, M "Web Log D s aları _ ndan Genetik Algoritma Yöntemiyle Sıralı Erışımlerın Tespit Edilmesi", Türkiye Bilişim Derneği 20 Bilişim Kurultayı, (2003) Cooley, R, Mobasher, B and Srivastava J "Web Mining: Information and Pattern Discov ry on the W? rld Wide Web", Departınent of Computer Scıence and Engineering, University of Minnesota ' Minneapolis, MN 55455, USA, (1997) Nabiyev, VVasif, Yapay Zeka Kitabı ' Seçkin Yayınevi, Ekim 2003, Ankara Kösehan, Y, Leblebicioğlu, K, "M ayın Tarlası Oluşturma Problemine Genetik Algoritma Yaklaşımı", KHO Savunma Bilimleri Dergisi, Vol 2, s34-56, (2003) [7] İşeri, İ, "Web Günlüğünden Zaman Sınırlı Bulanık Bağıntı Kuralları ve Sıralı Örüntülerin Çıkarılması", Fırat Üniversitesi, Fen Bilin1leri Enstitüsü, Yüksek Lisans Tezi, Elazığ, (2005) [8] Sushmita Mitra, Tinku Acharya, "Data Mining: Multimedia, Soft Computing and Bioinformatics" A John Wiley & Sons, Ine publication, USA, (2003) [9] Nong Ye, "The handbook of Data Mining", Lawrence Eri b au m Associates publishing Company Ine London, (2003) [10] Michael JABerry, Gordon Linoff, "Data Mining Techniques", published by John Wiley & Sons, Ine USA, (1997) [ll] Internet: SARGt http://sargsourceforgenet, Erişim tarihi: Aralık 2006 [12] JSrivasta, RCooley, MDeshpande and PTan, "Web Usage Mining: Discovery and Aplications of Usage Patterns From Web Data" SIGKDD Exploartions 1(2), 1-12, (2000) [13] ulut, B, "Veri Yöntemlerinin celenmesi ve Uygulamaları", Fırat Universitesi, Fen Bilimleri Enstitüsü, YL Semineri, Elaz1ğ, (2006) (14] Emel, GG, Taşkın, Ç, "Genetik Algoritmalar "Ye UygulaJ?a Alanları", Uludağ Üniversitesi, Iktisadi ve Idari Bilimler Fakültesi Dergisi, Cilt XXl, Sayı 1, s 129-152, (2002) [15] Ye, Nong (Ed), "The Handbook of Data Mining", Lawrence Erlbaum Associates ' Publishers, Mahwah, New Jersey, London, (2003) 72