19 (4), 493-503, 2007 19 (4), 493-503, 2007. Fırat Üniversitesi, Mühendislik Fakültesi, Elektrik-Elektronik Mühendisliği Bölümü rdas@firat.edu.



Benzer belgeler
GENETİK ALGORİTMA YÖNTEMİYLE INTERNET ERİŞİM KAYITLARINDAN BİLGİ ÇIKARILMASI

BİR WEB SİTESİNE AİT KULLANICI ERİŞİM KAYITLARININ WEB KULLANIM MADENCİLİĞİ YÖNTEMİYLE ANALİZİ: FIRAT ÜNİVERSİTESİ ÖRNEĞİ

Web Madenciliği Teknikleri

VERİ MADENCİLİĞİNE BAKIŞ

Web Tabanlı Öğretim Materyallerinin Web Kullanım Madenciliği ile Analiz Edilmesi

WEB KULLANIM MADENCİLİĞİ UYGULAMASI

VERİ MADENCİLİĞİ (Web Madenciliği)

MÜHENDİSLİK FAKÜLTESİ / ENSTİTÜSÜ / YÜKSEKOKULU BİLİŞİM SİSTEMLERİ MÜHENDİSLİĞİ BÖLÜMÜ /ABD LİSANS PROGRAMI - 2 ( yılı öncesinde birinci

LOG PreProcessing: Web Kullanım Madenciliği Ön İşlem Aşaması Uygulma Yazılımı

Script. Statik Sayfa. Dinamik Sayfa. Dinamik Web Sitelerinin Avantajları. İçerik Yönetim Sistemi. PHP Nedir? Avantajları.

T.C. ERCİYES ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ EĞİTİM ÖĞRETİM YILI DERS KATALOĞU

Resul DAŞ 1, İbrahim TÜRKOGLU 2, Mustafa POYRAZ 3 1 Fırat Üniversitesi, Enformatik Bölümü, 23119, ELAZIG, rdas@firat.edu.tr

Web Madenciliği (Web Mining)

ÖZGEÇMİŞ. 1. Adı Soyadı : Birim BALCI 2. Doğum Tarihi : Unvanı : Yrd. Doç. Dr. 4. Öğrenim Durumu: Derece Alan Üniversite Yıl Lisans

Mobil Cihazlardan Web Servis Sunumu

Veri Ambarından Veri Madenciliğine

Hidayet Takçı * ve İbrahim Soğukpınar **

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

FIRAT ÜNİVERSİTESİ PERSONEL OTOMASYONU

Fırat Üniversitesi Personel Otomasyonu

Türkiye Barolar Birliği internet sitesi

Veritabanı Yönetimi Bilgisayarların. Keşfi Hedefler. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi

Yrd. Doç. Dr. Kerem OK Işık Üniversitesi Fen-Edebiyat Fakültesi Enformasyon Teknolojileri Bölümü

MÜFREDAT DERS LİSTESİ

VERİ TABANI YÖNETİM SİSTEMLERİ

VERİ TABANI UYGULAMALARI

LOGO İş Zekası çözümü ile kurumsal raporlama ve analizler. Cem Yılmaz Genel Müdür LOGOBI Yazılım

LOG Analiz: Erişim Kayıt Dosyaları Analiz Yazılımı ve GOP Üniversitesi Uygulaması

Bilecik Üniversitesi Mühendislik Fakültesi Moodle Uzaktan Öğretim Sistemi

MOODLE UZAKTAN ÖĞRETİM SİSTEMİ

YAPAY ZEKA (Artificial Intelligence)

Bölüm 1: Veritabanı Yönetim Sistemlerine Giriş

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI

Ö Z G E Ç M İ Ş. 1. Adı Soyadı: Mustafa GÖÇKEN. 2. Doğum Tarihi: 12 Haziran Unvanı: Yrd. Doç. Dr. 4. Öğrenim Durumu: Ph.D.

Harmanlanmış Bilgisayar Dersinde Öğrencilerin Sınav Günü İnternet Hareketliliği

Veritabanı Yönetim Sistemleri, 2. basım Zehra ALAKOÇ BURMA, 2009, Seçkin Yayıncılık

1.PROGRAMLAMAYA GİRİŞ

Yard. Doç. Dr. İrfan DELİ. Matematik

1 Temel Kavramlar. Veritabanı 1

Veritabanı, Veri Madenciliği, Veri Ambarı, Veri Pazarı

ÖZGEÇMİŞ. Derece Alan Üniversite Yıl

1. Oracle Data Miner 11g Release 2 Kurulumu Aşamaları

ANKARA ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ

Yrd. Doç. Dr. Mustafa NİL

XIX. Türkiye de Internet Konferansı (inet-tr 14) BULUT BİLİŞİM GÜVENLİĞİ HOMOMORFİK ŞİFRELEME Kasım, 2014, Yaşar Üniversitesi İÇİN

BAŞAK ÇOBAN MERVE SARITAŞ AZİME AKÇAÖZ BÜŞRA AYDEMİR

BİH 605 Bilgi Teknolojisi Bahar Dönemi 2015

VERI TABANLARıNDA BILGI KEŞFI

Yrd. Doç. Dr. Büşra ÖZDENİZCİ IŞIK Üniversitesi Enformasyon Teknolojileri Bölümü

SAYISAL GÖRÜNTÜ İŞLEME (Digital Image Processing)

Konular. VERİ MADENCİLİĞİ Giriş. Problem Tanımı. Veri Madenciliği: Tarihçe. Veri Madenciliği Nedir? Bilgi Keşfi

Akademik Özgeçmiş Tabanlı Fakülte Bilgi Sistemi

Veritabanı Dersi. Teoriden Pratiğe. Çağıltay N.E., Tokdemir G. Veritabanı Sistemleri Dersi -Bölüm XXV: Web'den Erişim Çağıltay, N., Tokdemir, G.

Veritabanı Yönetim Sistemleri (Veritabanı Kavramı) Veri Modelleri

Bulanık Mantık Tabanlı Uçak Modeli Tespiti

Bilgi Servisleri (IS)

Web Günlük Analizi. Mehmet ULUER muluer (at) ford (dot) com (dot) tr

Web Server Sunucu Loglarının K-Komşu Algoritması ile İ ncelenmesi

Arş. Gör. Mümine KAYA

iş zekası business intelligence- harita- performans göstergeleri - balanced scorecard 7 boyut da görsel tasarım LOGOBI İş Zekası Platformu

Internet ve World Wide Web

İş Zekâsı Sistemi Projesi

ISCOM Kurumsal ISCOM KURUMSAL BİLİŞİM TEKNOLOJİLERİ EĞİTİM KATALOĞU

BİLGİYİ YÖNETME. Mustafa Çetinkaya

2014-halen Ankara Üniversitesi, Bilgisayar Mühendisliği Yüksek Lisans halen Süleyman Demirel Üniversitesi, Bilgisayar Programcılığı

SIRA NO SORUMLU BİRİM FAALİYET SORUMLU DURUM AÇIKLAMA

Yrd.Doç. Dr. Tülin ÇETİN

A. SCI ve SCIE Kapsamındaki Yayınlar

Büyük Veri de Türkiye den Uygulama Örnekleri Dr. Güven Fidan

FIRAT ÜNİVERSİTESİ SMS - WAP OTOMASYONU UNIVERSITY OF FIRAT SMS - WAP OUTOMASION


YÖNETİM BİLİŞİM SİSTEMLERİ BÖLÜMÜ YENİ DERS MÜFREDATI (1) FAKÜLTESİ: İŞLETME FAKÜLTESİ / BUSINESS SCHOOL

Veritabanı. Ders 2 VERİTABANI

Yrd. Doç. Dr. Tuğba ÖZACAR ÖZTÜRK

Business Intelligence and Analytics Principles and Practices: Charting the Course to BI and Analytic Success

Veritabanı Uygulamaları Tasarımı

Veritabanı Yönetim Sistemleri (Veritabanı Kavramı) Veritabanı Sistemleri

GAZİOSMANPAŞA ÜNİVERSİTESİ MÜHENDİSLİK VE DOĞA BİLİMLERİ FAKÜLTESİ WEB TEMELLİ ÖĞRENME VE İÇERİK YÖNETİM SİSTEMİ

GEZİNME ADAPTASYONU: NEDEN VE NASIL?

ve Sonrası Girişli Öğrenciler için Uygulanacak Ders Program

MİLPA TİCARİ VE SINAİ ÜRÜNLER PAZARLAMA SANAYİ VE TİCARET A.Ş. MİLPA GİZLİLİK POLİTİKASI

SQUİD PROXY İLE GERÇEK ZAMANLI WEB TRAFİK KONTROLÜ

ÖZGEÇMİŞ. 1. Adı Soyadı : Kamile ŞANLI KULA İletişim Bilgileri : Ahi Evran Üniversitesi, Fen Edebiyat Fakültesi, Adres Matematik Bölümü, KIRŞEHİR

Yazılımlarının İncelenmesi

Karar Destek Sistemleri

KURUMSAL PORTAL TASARIMI

Ankara Üniversitesi, Eğitim Bilimleri Enstitüsü, Bilgisayar ve Öğretim Teknolojileri Eğitimi Anabilim Dalı, Eğitim Teknolojisi Programı.

Özgeçmiş (CV) Web, Yazılım, Donanım : Samsun Barış Bilgisayar - ( )

DOĞAN EGMONT YAYINCILIK VE YAPIMCILIK TİCARET A.Ş. GİZLİLİK POLİTİKASI

Veri Tabanı-I 1.Hafta

Kablosuz Sensör Ağlar ve Eniyileme. Tahir Emre KALAYCI. 21 Mart 2008

Yrd. Doç. Dr. Övünç ÖZTÜRK

ArcGIS Online ve Portal for ArcGIS

GÜR EMRE GÜRAKSIN AFYON KOCATEPE ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ / BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ / AFYONKARAHİSAR

Bilgisayar Mühendisliğine Giriş. Yrd.Doç.Dr.Hacer KARACAN

UZAKTAN EĞİTİM MERKEZİ

Fırat Üniversitesi Hastanesi Dinamik Web Sayfası

CELAL BAYAR ÜNİVERSİTESİ KÜTÜPHANE VERİTABANLARINA ÜNİVERSİTE DIŞINDAN ERİŞİM

Internet Programlama (ISE 311) Ders Detayları

Transkript:

Fırat Üniv. Fen ve Müh. Bil. Dergisi Science and Eng. J of Fırat Univ. 19 (4), 493-503, 2007 19 (4), 493-503, 2007 Web Kayıt Dosyalarından İlginç Örüntülerin Keşfedilmesi Resul DAŞ 1, İbrahim TÜRKOĞLU 2 ve Mustafa POYRAZ 3 1 Fırat Üniversitesi Rektörlüğü, Enformatik Bölümü, 23119, ELAZIĞ 2 Fırat Üniversitesi, Teknik Eğitim Fakültesi, Elektronik ve Bilgisayar Eğitimi Bölümü 3 Fırat Üniversitesi, Mühendislik Fakültesi, Elektrik-Elektronik Mühendisliği Bölümü rdas@firat.edu.tr (Geliş/Received: 13.04.2007; Kabul/Accepted: 15.08.2007) Özet: Web madenciliği, Web dokümanlarından ve servislerinden otomatik olarak bilgi çıkarmak ve keşfetmek için veri madenciliği tekniklerinin kullanılması olarak tanımlanır. Web madenciliğinin alanı 3 farklı alt başlık altında analiz edilebilir; Web içerik madenciliği, Web yapı madenciliği, Web kullanım madenciliği. Web kullanım madenciliği, web sayfalarının kullanıcı erişim örüntülerini keşfetmek için web kayıt dosyalarını incelemektedir. Bu makalede, bu alandaki yapılmış son gelişmelere genel bir bakış sunulmuştur. Kısacası, Web kullanım madenciliği tanımlanması, geliştirilen çalışmalar ve teknikler, çeşitli araştırma konularının gözden geçirilmesi sunulmuştur. Anahtar Kelimeler: Bilgi keşfi, Web madenciliği, Web kullanım madenciliği, Web Kayıt dosyaları. Discovering of Interesting Patterns from Web Log Files Abstract: Web mining is defined as the use of data mining techniques to automatically discover and extract information from Web documents and services. The field of Web mining can be analyzed under three different headers; Web content mining, Web structure mining and Web usage mining. Web usage mining is to analysis Web log files to discover user accessing patterns of Web pages. In this paper, we present a survey of the recent developments in this area. We briefly define Web usage mining and present an overview of the various research issues, techniques and development efforts. Keywords: Knowledge discovery, Web mining, Web usage mining, Web Log files. 1. Giriş Elektronik ortamdaki verilerin, uzak mesafelere aktarılması ve kullanılması açısından Internet, dünya üzerinde var olan en büyük bilgi paylaşım ortamıdır. Birçok kişi, kurum ve kuruluşlar bilgi paylaşımı ve veri aktarımlarını gelişmiş teknolojik cihazları kullanarak, Internet ağı üzerinden yapmaktadırlar. Böylece Internet üzerinde var olan sunucuların sakladıkları veri kayıt miktarı ve bu verilerle uğraşan tüm Internet kullanıcılarının tutulduğu kayıt dosyalarının kapasiteleri de hızlı bir şekilde artmaktadır. Yığınla biriken bu verilerin incelenmesi ve analizlerinin yapılabilmesi için web madenciliği yöntemleri kullanılmaktadır. Internet Web verilerinden sıralı örüntülerin bulunması, kullanıcı bilgilerinin ve davranışlarının tespiti ve benzeri birçok madencilik çalışmaları geçmiş yıllarda yapılmış ve farklı yaklaşımlar sunulmuştur. Uğuz ve diğ. yaptıkları çalışmada, web sunucusunun Internet erişim kayıtlarına web kullanım madenciliği yöntemini kullanarak web sayfası ziyaretçilerinin en sık eriştiği sayfa çiftlerini, üniversite içi ve dışı kullanıcı erişim dağılımı gibi tanımsal ilişkileri tespit etmişlerdir [1]. Daş ve diğ. makale çalışmalarında, Proxy sunucusunda tutulan Internet kullanıcı erişim kayıtlarına Genetik Algoritma yöntemini uygulayarak Web Kullanım yapmışlardır. Bu çalışmalarında Fırat Üniversitesi kampus Internet kullanıcılarının en çok kullandığı akademik veritabanları bilgisi tespit edilmiştir [2]. Chen ve Syncara geliştirdikleri Web Mate adlı sistemlerinde, web sayfalarını inceleyerek web içeriğinden kullanıcı ilgilerini belirlemeyi

R. Daş, İ.Türkoğlu ve M. Poyraz sağlamışlardır [3]. Bu çalışma ile web üzerinden arama işlemlerinde kolaylık sağlamışlardır. İşeri yaptığı tez çalışmasında, geliştirdiği yazılım ile web günlüğünden zaman sınırlı bulanık bağıntı kuralları ve sıralı örüntülerin çıkarılmasını sağlamıştır [4]. Şakiroğlu ve diğ. yaptıkları çalışmada, web erişim kayıt dosyalarından genetik algoritma yöntemiyle sıralı erişimleri tespit etmişlerdir [5]. Gezer ve diğ. yapmış oldukları Web kullanım madenciliği analiz çalışmasında, İstanbul Üniversitesi Uluslar arası Akademik İlişkiler Kurulu AB Eğitim birimine ait web sitesi sunucu kayıt dosyalarına WUMprep ve WUMweb yazılımlarını kullanarak analiz yapmışlardır [6]. Carus ve Mesut geliştirdikleri Web kullanım madenciliği yazılımı ile farklı formatlardaki erişim kayıt dosyalarının analizini yaparak, istatistiksel sonuçlar elde etmişlerdir [7]. Şakiroğlu ve diğ. yaptıkları makale çalışmalarında, web erişim kayıt dosyalarından genetik algoritma yöntemiyle sıralı erişimleri (peşpeşe en çok ziyaret edilen sayfaları) tespit etmişlerdir. Burada log dosyalarında toplanan ham verilerden yola çıkılarak kullanıcı davranışlarının tespiti yapılmıştır. Bu makalelerde, hem bilgi çıkarım tekniği, hem de kullanılan akıllı yapı olarak makine öğrenmesi tekniklerinden olan Genetik Algoritma (GA) yöntemi kullanılmıştır [2, 5, 8]. Cooley ve diğ. yaptıkları makalede, Web kullanım madenciliği için WEBMINER adlı bir sistem geliştirmişlerdir. WEBMINER, otomatik olarak kullanıcı erişim kayıtlarından (access.log) birliktelik kuralları ile sıralı (sequential) örüntüleri keşfetmektedir. Ayrıca, web madenciliği teknikleri ile ilgili genel tanımlamalar ve araştırmalar ele alınmıştır [10]. Srivasta ve diğ. çalışmalarında, Web kullanım madenciliği ile ilgili temel tanımlamaları ve genel kavramları ifade etmişlerdir. Ayrıca, ISP lerde (Internet Service Provider) tutulan verilerin bilgisi ve IIS in işlevinden bahsedilmiştir. Uygulama kaynakları olarak sunucu, istemci ve proxy alınmıştır. Makalenin amacında, Web kullanım madenciliğinde karşılaşılan zorluklar ve umulan başarıları yatmaktadır [11]. Cooley ve diğ. yaptıkları kapsamlı çalışmalarında Internet sunucularında tutulan kayıt dosyalarından bilgi keşfi öncesi ham verilerin ön işlem süreci detaylandırılmıştır [12]. Araya ve diğ. yaptıkları web kullanım madenciliği çalışmasında yeni bir yöntem geliştirmişlerdir. Geliştirdikleri bu yöntemlerinde standart bilgi keşfi işlem safhalarına amaçların tanımlanması ve mesleklerin birleştirilmesi şeklinde yeni işlem aşamaları ilave etmişlerdir. Internet bankacılığını kullanan banka müşterilerinin bilgisinin tutulduğu kullanıcı kayıtlarına bu yöntemlerini uygulayarak, kayıtlı banka müşterileri arasında başarılı istatistiksel analiz yapmışlardır [13]. Uğur ve Kınacı yaptıkları yapay zekâ tekniği çalışmalarında, kategorilere ayrılmış dmoz.org [15] web sitesindeki verilere Yapay Sinir Ağları yöntemini uygulayarak web sayfalarını sınıflandırmışlardır [14]. Kullanıcı kayıt dosyalarındaki verilere Apriori algoritması uygulanarak kullanıcı erişim örüntülerinden kullanıcı bilgileri çıkarılmıştır [16]. Belen ve diğ. yaptıkları çalışmalarının amacında; kullanıcı ara yüzü ve veritabanı entegrasyonu olan 3 farklı web madenciliği tekniğini ve algoritmasını kullanan istatistiksel analiz yapan bir kütük araştırmacısı geliştirmektir. Geliştirilen WALA (Web Access Log Analyser) adlı sistem, bir web sitesinin kullanım analizi için gerekli olan araçları sağlar ve kullanıcıların en çok ziyaret edilen sayfalar, en yoğun sayfalar, bir arada ziyaret edilen sayfalar gibi bilgilerin tespiti için bir sunucu erişim kütüğü analiz programıdır. Çalışmanın hedefi, web tasarımcıları ve web yöneticileri için bir çeşit karar destek sistemi olacak yeni bir yazılım geliştirmek olmuştur [17]. Özakar ve diğ. çalışmalarında, İzmir İleri teknoloji Enstitüsü sunucularındaki web kayıtlarındaki verileri kullanmışlardır. Çalışmalarında sunuculardan alınan kayıt dosyalarındaki ham veri temizlenip, java class kullanılarak ilişkisel veritabanına aktarılmaya hazır hale getirilmiştir. Veri hazırlama bölümünde geçersiz veri ayıklanıp, veri madenciliği uygulanabilecek formata çevrilmiştir. Bu aşamada; erişim kütüğü, hata kütüğü, kullanıcı verisi, web içerik verisi incelenerek işlemler yapılmıştır. Daha sonra sorgu mekanizması, veri tabanı üzerinde tanımsal sorgular yapmaktadır. Sorgulamada 494

Web Kayıt Dosyalarından İlginç Örüntülerin Keşfedilmesi belirtilen kayıt (log) dosyasında, yorumlanması gereken kısımlarla ilgili tanımsal sorgu yaptırılmıştır [18]. Luca Iocchi nin makale çalışmasında geliştirdiği Web-OEM modeli, webden yarı yapısal bilgilerin çıkarılması için tasarlanmış bir bilgi modelidir. Bu model, webdeki dağınık bilgi yığınlarının büyük bir kısmından bilgi keşfi yapmaktadır. Klasik bilgi modellerinin yetersiz oluşuna alternatif olarak geliştirilmiştir [19]. Habegger ve Quafafou yaptıkları çalışma da, XML tabanlı WetDL dili ile ayrıştırma yapılarak webden bilgi çıkarımı uygulaması yapmak için önerilerde bulunmuşlardır. Uygulama örneği olarak amazon.com Internet sitesi belirtilmiştir [20]. Benzer uygulama örneği ise, TC Kimlik numarasını bulmak için kişisel bilgilerin girilerek, kişinin numaranın çıkartılması olayıdır. Yapılan birçok makale çalışmalarında da; web madenciliği konusunda kapsamlı ve derin araştırmalar yapılmış, önemli literatür bilgileri verilmiş, web madenciliği ve web kullanım madenciliği uygulamaları ele alınmıştır [21 23]. Takci ve Soğukpınar yaptıkları makalelerde kütüphane kullanıcılarının veritabanlarını kullanılarak, kullanıcıların web üzerindeki davranışları ile ilgili analiz yapılmıştır [24 25]. Web kullanım madenciliği için geliştirilen yazılımlarda, internet kullanıcı davranışlarının tutulduğu tüm kayıt dosyaları (access.log, agent.log, error.log, referrer.log) için istatistiksel analizler yapılabilmektedir [26-29]. Sunucularda tutulan her kayıt (log) dosyasındaki metinsel verilerin formatı birbirinden farklıdır. Metin tabanlı verilerden sağlıklı bilgi çıkarımı yapabilmek için kayıt dosyalarındaki gürültülü ve gereksiz verilerden ayıklanması gerekmektedir. Çünkü kayıt dosyalarındaki gereksiz ve gürültülü veriler hata oranını arttırmaktadır. Pedro Lineu Orso tarafından C programlama dilinde yazılmış olan SARG programı, Linux ve Unix tabanlı işletim sistemlerinin bulunduğu sunucularda çalışmaktadır. Bu program, sunucuda tutulan erişim kayıt dosyalarına ön işlem uygulayarak, belirli bir düzende tablo haline dönüştürüp HTML formatında kullanıcıya sunmaktadır [29]. Guo ve diğ. makale çalışmasında, çevrimiçi (online) öğrenme aktiviteleriyle ilişkili olan modellerin bir kümesi oluşturulmuş, Web kullanım madenciliği teknikleriyle öğrenci davranışlarını değerlendirmek için bir yaklaşım sunulmuştur. Bu çalışma, eğitim yazılımının modellerini, öğrenme işlemini ve eğitim yazılım sayfasının kullanılması, web kayıtlarından öğrencinin performans bilgisini çıkarılması ile ilgili bize yardımcı olmaktadır. Sonuçta, bu çalışma webe dayalı online eğitimden yararlanan öğrencilerin davranışlarının irdelenmesi üzerinedir [30]. Bu nedenle, Webe dayalı uzaktan eğitim sitelerini kullanan öğrencilerin davranışlarının tutulduğu kayıt (log) dosyaları incelenerek, istatistiksel analiz yapılabilir. Ayrıca, çıkarılan istatistiksel bilgiler göz önüne alınarak, kullanılan eğitim materyali hakkında yorumlamalar, hata analizleri, eğitim kalitesini arttırmak adına eleştiriler mümkündür. Di Guo makalesinde, Web madenciliği sistemi ile ortak arama sistemi bütünleşik olarak sunulmuştur. Çalışmada, bilgi düzenleme ve Web madenciliği uygulamaları için bir multiagent yaklaşımı (Collector Engine System- CES) önerilmiştir. Sistem içine IBM tarafından geliştirilen IBM aglets, objectspace voyager agents gibi yazılımlar entegre edilmiştir [31]. Bu makale çalışmasının amacında, Web kayıt dosyalarından anlamlı ve ilginç bilgilerin çıkarılmasıyla ilgili yapılmış akademik çalışmaları irdelemek ve bu alanda genel bilgi vermektir. 4 Bölümden oluşan bu makalenin 1. bölümünde Web madenciliği ile ilgili geniş literatür çalışmasına yer verilmiştir. 2. Bölümde Web kullanım madenciliği konusu irdelenmiş ve teorik bilgiler sunulmuştur. Ayrıca, bu konuda yapılmış uygulama ve çalışmalar atıflarla belirtilmiştir. Makalenin 3. bölümünde Web madenciliği konusunda geleceğe yönelik çalışma eğilimleri belirtilmiştir. Sonuç bölümü olan 4. bölümünde de çalışmanın değerlendirmesi yapılmış ve bu konuda öneriler sunulmuştur. 495

R. Daş, İ.Türkoğlu ve M. Poyraz Web madenciliği: Web madenciliği, Web dokümanlarından ve servislerinden otomatik olarak bilgi çıkarmak ve keşfetmek için veri madenciliği tekniklerinin kullanılması işlemidir. Web Yapı XML Şema HTML Doküman Kılavuz Web Web Kullanım Kişiselleştirme Kullanıcı Profili Müşteri Profili İş Zekası Sistem Geliştirme Öneriler E-Ticaret İzinsiz Arama Web Temsilcileri Web İçerik Kümeleme Birliktelik Kuralı Anlamsal Web Web Sayfası İçerik Arama Sonuç Metin Resim Şekil 1. Web nin Sınıflandırılması [35] Internet te var olan verilerin sürekli olarak değişmesi, güncellenmesi ve yeni bilgilerin eklenmesi web madenciliğinde karşılaşılan bir zorluktur. Web sayfalarının bu dinamik yapısından dolayı Web den bilgi çıkarımı, normal metin tabanlı dokümanlara göre daha zordur. Web madenciliğinin çalışma alanı Şekil 1 de görüldüğü üzere, üç alt başlıkta kategorize edilebilir; Web içerik madenciliği, Web yapı madenciliği, Web kullanım madenciliği. Ayrıca, bu kategorilerin kendi aralarında temel farkları göz önüne alınarak kıyaslanması Tablo 1 de gösterilmiştir. Web içerik madenciliği: Video, ses, görüntü, bağlantılı ve bağlantısız metinler içeren ve çoğu belli bir düzene sahip olmayan çoklu web dokümanlarından otomatik bilgi çıkarımı web içerik madenciliği ilgi alanına girmektedir. Web içerik madenciliği, bu verilerden anlamlı sonuçlar elde etmek için kullanılan akıllı programlardır. Bu programların amacı, web sayfalarında dolaşarak, bilgiler toplamaktır. Google, Lycos, Altavista gibi bilinen çeşitli arama motorları bu tekniklerden faydalanmaktadırlar [9]. Web yapı madenciliği: Web sayfaları arası ya da bir web sayfasındaki bağlantılar (grafik-yazı, grafik-grafik, resim-yazı vb.) arasındaki ilişkileri inceleyerek sonucunda bilgi üretir [9]. Örneğin, önemli web sayfaları belirtilirse, Google arama motoru da tarama sonucunda o sayfaları bulduğunda önemli olarak işaretler. Web içerik madenciliği web sayfasının içeriği ile ilgilenirken, web yapı madenciliği ise doğrudan web sayfaları arasındaki bağlantıları inceler. Web kullanım madenciliği: Veri madenciliği tekniklerini kullanarak, Web verilerinden kullanıcı örüntülerini keşfedilmesi ve analiz edilerek ilginç örüntülerin ortaya konulmasını sağlayan uygulamalardır. Bu çalışma, web kullanım madenciliği üzerine kurulduğu için makalenin 2. bölümünde ayrıntılı olarak ele alınmıştır. Tablo 1. Web madenciliğindeki verilerin incelenmesi Web Web İçerik Web Yapı Web Kullanım Veri Metin Belgeleri ve HTML HTML Linkleri Sunucu ve Tarayıcı kayıtları (logs), Çerezler, Kullanıcı Profilleri, Sorguları, Meta-Data. Verinin Şekli Yapısız ve Karışık Link Yapısı Kullanıcı Etkileşimi ve Davranışı Gösterilimi İlişkisel ve Sınıflandırmalı Grafiksel İlişkisel Tablolar ve Grafiksel 2. Web Kullanım Kullanıcı isteklerinde ortaya çıkan hizmetlerin yeterliliği, web sayfalarının kullanma durumlarını, kullanıcı oturumları ve 496 davranışlarıyla üretilen erişim kayıtlarının analiz edilmesi gibi konuları inceler. Web içerik ve web yapı madenciliği web de birincil veriyi (gerçek veri) kullanırken, web kullanım madenciliği Internet kullanıcılarının web ile

Web Kayıt Dosyalarından İlginç Örüntülerin Keşfedilmesi etkileşiminden elde ettiği ikincil veriyi kullanır. Web kullanım verisi, web sunucu erişim kayıtları, Proxy sunucu kayıtları, tarayıcı kayıtları, kullanıcı profilleri, çerezler, fare klikleri ve sayfa kaydırmaları ve etkileşim sonuçları gibi verileri içermektedir [35]. 2.1. Kayıt dosyalarının türleri Web kullanım madenciliği uygulamasının ana veri kaynağı, Internet sunucuları üzerinde biriken kayıt dosyalarıdır. Bu Web kayıt (log) dosyaları sunucu platformundan bağımsız metin tabanlı dosyalardır. Ancak, farklı işletim sistemlerindeki Web sunucularının (Apache / IIS) tuttuğu kayıt dosyalarının formatı birbirinden farklıdır. Madencilik işleminde, bu kayıtlar içerisindeki gereksiz ve gürültülü veriler, ön işlem aşamasında temizlenmektedir. Erişim kayıt (access log), hata kayıt (error log), istek kayıt (referrer log), etmen kayıt (agent log) olmak üzere dört çeşit sunucu kayıt dosyası vardır. Erişim kayıt dosyaları: Internet kullanıcı davranışlarının tutulduğu kayıt dosyalarıdır. Farklı işletim sistemleri üzerinde çalışan Web sunucuları ile Proxy sunucuları üzerindeki yazılımların sakladığı erişim kayıt dosyalarının biçimleri birbirinden farklı olabilir. Örneğin, Linux işletim sistemi üzerinde çalışan bir Apache Web sunucusu ile Windows Server 2003 işletim sistemi üzerinde çalışan bir IIS (Internet Information Server) Web sunucusunun tuttuğu erişim kayıt dosyasının biçimi birbirinden farklı olabilir. Microsoft IIS Web sunucusunda CLF (Common Log Format), ECLF (Extended Common Log Format), NCSA (National Center for Supercomputing Applications) olmak üzere 3 farklı biçimde kullanıcı erişim kayıt(log) dosyaları tutulmaktadır. Şekil 2. Proxy sunucusunda tutulan erişim kayıt dosyası örnek satırlar 10.7.2.102 - - [31/May/2007:08:01:38 +0300] "GET /images/green.gif HTTP/1.1" 304 1346 "http://posta.firat.edu.tr/msglist.php" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)" Şekil 3. CLF kayıt dosyasından örnek bir satır Web kayıt dosyaları ile ilgili yapılmış birçok akademik çalışma yapılmıştır [1 2, 5 7, 11 12, 16 17, 32 33]. Bu çalışmalarda kayıt dosyaları irdelenmiş ve uygulama örnekleri ile gösterilmiştir. Bunun yanı sıra geliştirilen yazılımlar sayesinde kayıt dosyaları analiz edilebilmektedir [26 29, 56]. Ayrıca, Web kayıtları ile ilgili de birçok akademik çalışma ve yazılım mevcuttur [55, 57 58, 60, 62 63]. 497 Hata kayıt dosyaları: Sunucu üzerinde gerçekleştirilemeyen ya da meydana gelen hatalı işlemlerin tutulduğu kayıt dosyalarıdır. İstek kayıt dosyaları: Kullanıcı isteklerinin tutulduğu kayıt dosyalarıdır. Etmen kayıt dosyaları: kullanıcının kullandığı Internet tarayıcısının adı, sürümü ve işletim sistemi hakkındaki bilgilerin tutulduğu kayıt dosyalarıdır. Etmen ve istek kayıt dosyalarının

R. Daş, İ.Türkoğlu ve M. Poyraz sunucu üzerinde tutulup tutulmaması seçilen kayıt dosya biçimine bağlıdır. Bir Internet uygulamasında, web kayıt dosyaları içerisinde bilgi değişiklikleri (kayıt ekleme, kayıt güncelleme ve kayıt silme gibi) olabilir. Bu durumda, tüm veri tabanının defalarca taranıp sık kullanılan öğelerin bulunması hem çok vakit alıcı hem de çok gereksiz olacaktır. Bu nedenle, sadece değişen kayıtlardaki sık kullanılan öğe kümesini güncellemek ve buna göre ilginç örüntüleri keşfetmek için yeni algoritmalara ihtiyaç duyulmaktadır. Şekil 4. Etmen kayıt dosyasından örnek satırlar 2.2. Web kullanım madenciliğinin işlem basamakları Internet Web kayıtlarının tutulduğu metin tabanlı kayıt (log) dosyalarından anlamlı ve gerekli olan bilgilerin çıkarılması için belirli işlem basamaklarından geçirilmesi gerekmektedir. Bu işlem basamakları Ön işlem, Örüntü Keşfi, Örüntü Analizi şeklinde sıralanabilir [32, 41, 49]. Şekil 5. Web kullanım madenciliği işlem aşamaları [32] Ön işlem: Web kullanım madenciliğinin ön ilişkisiz sahalarından arındırılması, ayıklanması işlem aşamasında, karmaşık veriler, veri ve belirli bir düzene getirilmesi işlemidir. temizleme, işlem tanımlanması, veri birleştirme Karmaşık ve zor olan bu işlem süreci, içeriğe ve dönüştürme işlemlerinden geçirilerek bir göre farklılık gösterebilir. Bu süreçte önemli sonraki evre olan örüntü keşfi aşamasına uygun olan veri kaynağından alınan verilerin işlenerek, hale getirilir. Sunucu üzerinde karmaşık ve ilgisiz ve gereksiz verilerden ayıklanmasıdır. düzensiz biçimde bulunan erişim kayıt Web kullanım madenciliği uygulamasının bu dosyalarındaki verilerin, analiz değeri olmayan 498

Web Kayıt Dosyalarından İlginç Örüntülerin Keşfedilmesi aşaması için birçok farklı yazılımların kullanılması mümkündür [26 29, 56 58, 60]. Metinsel biçimdeki kullanıcı kayıtlarının artık verilerden ayıklanabilir ve istenildiğinde, bu veriler herhangi bir veri tabanına da kolaylıkla aktarılabilir. Örüntü keşfi: Örüntü keşfi, anlamsız verilerden önemli ve gerekli bilgiyi ortaya çıkarma işlemidir. Web madenciliğinde örüntü keşfi için birçok yöntem ve algoritma bulunmaktadır [11, 17, 49]. İstatistiksel analiz, ilişkilendirme kuralları, kümeleme, sınıflandırma, sıralı örüntüler ve bağımlılık modelleme gibi teknikler kullanılmaktadır. Srivastava ve diğ. yaptıkları çalışmada bu teknikler hakkında detaylı olarak bilgi vermişlerdir [11]. Örüntü analizi: Örüntü analizi, Şekil 6 da görüldüğü gibi Web kullanım madenciliği uygulamasının son işlem aşamasıdır. Örüntü analizinin amacı; örüntü keşfi aşamasında elde edilmiş ilginç olmayan kurallar ya da örüntülerin filtrelenmesidir [11, 17, 49]. Genellikle örüntü analiz işlemi web madenciliği uygulamaları tarafından elde edilir. Yaygın olarak kullanılan bilgi sorgulama mekanizmaları SQL, MySQL gibi veritabanı uygulamaları ve On-Line Analytical Processing (OLAP) uygulamasıdır. Görsel teknikler olarak da daha çok grafiksel örüntüler, farklı değerlerle yoğun ve dikkat çeken örüntüler, işaretlenmiş renkler göz önünde bulundurulmaktadır [11]. Örüntü analizi konusunda yapılmış birçok çalışma ve uygulamalar mevcuttur [11, 13, 17, 21 22, 24 25, 34, 42, 45 46, 52, 63, 66]. Örneğin; [17] nolu makale çalışmasında, WALA program uygulamasında, kullanımı kolay ve anlaşılır kullanıcı menüsü sayesinde kullanıcının istekleri ve seçimleri doğrultusunda örüntü analizi yapılabilmektedir. Örüntü analizindeki önemli konulardan biri de, ilginç örüntülerinin nasıl öğrenileceğidir [49]. 3. Geleceğe Yönelik Çalışma Eğilimleri Web konusu Internet in varoluşuyla gündeme gelmiş ve popülaritesi günden güne artmaktadır. Özellikle Web Kullanım konusunda çok sayıda açık konu bulunmaktadır. Internet kullanıcılara ait özel bilgilerin gizliliği (internet bankacılığı, e-ticaret, kredi kartı bilgileri, v.b.), kişi ve kurumlarla ilgili sunulan bilgilerdeki mahremiyete karşı hazırlanan katı kuralların artması ile bu alanda birçok pratik uygulamaları gündeme getirmiştir. Bu nedenle, her ne sebeple olursa olsun birçok ilginç çalışma alanı Web sitesi tasarımının içindeki anlamsal yapı ile bütünleşmektedir. Bu anlamsallık yapıyı ortaya koyan Web kullanım madenciliği uygulamalarıdır. Yani, anlamsız web kayıtlarından çıkarılan sayısal bilgiler ve istatistiksel analiz kullanıcılarla ilgili ilginç bilgileri ortaya çıkarmaktadır. Bu nedenle Web kullanım madenciliğinin çok daha fazla etkin, verimli ve güncel kullanılması Internet ortamına çok büyük kazanımlar sağlayacaktır. Web kullanım madenciliği ile ilgili yapmış olduğumuz araştırma ve incelemelerde, görmüş olduğumuz bazı önemli hususları belirtmemiz, bu konuda yapılacak gelecek çalışmalara ışık tutacaktır. Internet verimliliğini arttırma adına Internet kullanıcılarının davranışlarıyla ilgili birçok araştırma çalışması mümkündür. Kampus ağı Internet kullanıcılarına yönelik kurumsal anlamda, araştırma ve çalışma yapılarak kurum çalışanlarına yönelik durum değerlendirilmesi yapmak mümkündür. Kurum veya birim içerisinde ortak kullanıma açık olan yazılım, otomasyon ya da web sitelerini kullananlara ilişkin birçok analiz işlemleri yapmak mümkündür. Kişilerin Internet teki davranış bilgilerinin çıkarılması, kullanıcılara ait karakteristik özelliklerin tahmin edilmesi gibi çalışmalar yapılması mümkündür. Günümüzde geliştirilen akıllı web sayfaları sayesinde, web kullanım madenciliği için elde edilebilecek önemli bilgiler artmaktadır. Buna paralel olarak da ortaya konacak yararlı bilgilerde artacaktır. Web sayfası tasarımcılarının web sitelerini güncellemelerine, web sunucu yöneticilerinin de sistem hatalarının giderilmesine fayda sağlayacak birçok yararlı ve gerekli bilgiler sunulabilir. Web sitesinde kırık olan linkler, en yoğun girilen sayfalar, en çok indirilen dosyalar, en ilgi görülen resim, şekil ya da görüntüler, en çok meydana gelen sunucu ve istemci hatalarına ait bilgiler tespit edilerek, web sitesinin güncellenmesi işleminde 499

R. Daş, İ.Türkoğlu ve M. Poyraz bunları göz önüne alması sağlanır. Bu durum web sitesi Web sitesine yapılan saldırı ve ataklarla ilgili sunulan bilgilerle de sistem yöneticilerine büyük destek sağlanabilir. Internet bankacılığını kullanan tüm banka yetkililerinin, müşterileri ile ilgili edineceği önemli özel bilgiler ışığında, farklı ticari kazanımlar sağlanabilir. Internet kullanıcı erişim kayıtları analiz edilerek, Internet kullanıcılarına ait birçok sayısal verilerin tespit edilmesi mümkündür. Sonrasında, kullanıcılarla ilgili farklı bilgilere yönelme, kullanıcı davranışlarıyla ile ilgili tahminlerde bulunma ve benzeri araştırmalar yapma gibi konularda kolaylık sağlayarak, bu konudaki araştırmacıların çalışmalarında ufkunu açacaktır. 4. Sonuç Internet bilincinin yaygınlaşmasıyla beraber kullanıcı sayısının artması, Internet sunucuları üzerinde tutulan verilerin de hızlı bir şekilde artmasına neden olmuştur. Web kayıt dosyaları olarak saklanan metin tabanlı verilerin analiz edilip, faydalı bilgilerin çıkarılması ve yorumlanması Web teknikleriyle gerçekleştirilmektedir [2]. Özellikle, internet kullanıcı davranışlarının incelenmesi ve analizi Web Kullanım nin uygulama alanına girmektedir. Bu makale çalışmasında, Web ve Bilgi Keşfi konularıyla ilgili 100 den fazla makale üzerinde geniş bir literatür taraması tamamlanmış ve bu konu ile ilgili son yıllarda yapılmış olan çoğu akademik çalışmalar irdelenmiştir. Okunan bütün makalelere atıfta bulunmanın zor olacağı görüldüğünden, bu konuyla ilgili program web sitelerine, önemli bilgilere ve dikkat çeken hususlara atıf yapılmıştır. Özellikle, Web kullanım madenciliği detaylı olarak anlatılmış ve işlem safhaları ele alınarak, bu konunun önemi vurgulanmıştır. Kaynaklar 1. Uğuz, H., Kodaz, H., Saraçoğlu, R., Baykan, Ö.K. (2003). Genetik Algoritmalar Kullanılarak Web Kullanım Yönteminin Sistem Log Kayıtlarına Uygulanması. International XII. 500 Turkish Symposium on Artificial Intelligence and Neural Networks TAINN 2003, T-1, s. 45 47. 2. Daş, R., Türkoğlu, İ., Poyraz, M. (2006). Genetik Algoritma Yöntemiyle Internet Erişim Kayıtlarından Bilgi Çıkarılması. Sakarya Üniversitesi Fen Bilimleri Enstitüsü Dergisi, Cilt (10)2, 67 72, Sakarya. 3. Chen L., Sycara K. (1998). WebMate: A Personal Agent for Browsing and Searching, The Second International Conference on Autonomous Agents, ACM. 4. İşeri, İ. (2005). Web Günlüğünden Zaman Sınırlı Bulanık Bağıntı Kuralları ve Sıralı Örüntülerin Çıkarılması. Yüksek Lisans Tezi, Fırat Üniversitesi, Fen Bilimleri Enstitüsü, 50s. 5. Şakiroğlu, A.M., Tuğ, E., Bulun, M. (2003). Web Log Dosyalarından Genetik Algoritma Yöntemiyle Sıralı Erişimlerin Tespit Edilmesi. Türkiye Bilişim Derneği 20. Bilişim Kurultayı. 6. Gezer, M., Erol, Ç., Gülseçen, S. (2007). Bir Web Sayfasının Web ile Analizi, AB-2007 Akademik Bilişim Konferansı, (31 Ocak 2 Şubat 2007), Kütahya. 7. Carus, A., Mesut, A. (2005). Web Kullanım Uygulaması. II. Mühendislik Bilimleri Genç Araştırmacılar Kongresi MBGAK 2005, 17 19 Kasım 2005, Istanbul. 8. Tuğ, E., Şakiroğlu, A.M., Arslan, A. (2006). Automatic discovery of the sequential accesses from web log data files via a genetic algorithm. Knowledge-Based Systems 19, 180 186. 9. Liu, H., Keselj, V., (2007). Combined mining of Web server logs and web contents for classifying user navigation patterns and predicting users future requests. Data & Knowledge Engineering, (61)2, 304-330. 10. Cooley, R., Mobasher, B., Srivastava, J. (1997). Web Mining: Information and Pattern Discovery on the World Wide Web, Tools with Artificial Intelligence, Ninth IEEE International Conference on 3-8 November 1997, 558 567, USA. 11. Srivasta, J., Cooley, R., Deshpande, M., and Tan,P. (2000). Web Usage Mining: Discovery and Applications of Usage Patterns From Web Data. SIGKDD Exploartions. (2)1, 1 12. 12. Cooley, R., Mobasher, B., Srivastava, J. (1999). Data Preparation for mining World Wide Web Browsing Patterns. Knowledge and Information Systems 1, 1-27.

Web Kayıt Dosyalarından İlginç Örüntülerin Keşfedilmesi 13. Araya, S., Mariano Silva, Richard Weber, R. (2004). A methodology for web usage mining and its applications to target group identification. Fuzzy sets and systems 148, 139 152. 14. Uğur, A., Kınacı, A.C. (2006). Yapay Zeka Teknikleri ve Yapay Sinir Ağları Kullanılarak Web Sayfalarının Sınıflandırılması. XI. Türkiye de Internet Konferansı, (21 23 Aralık 2006) Bildirileri, Ankara. 15. Internet: Open Directory Project, http://dmoz.org, Erişim tarihi: Aralık 2006. 16. Uğuz, H., Kodaz, H., Çomak, E., Baykan, Ö.K. (2003). Apriori Algoritması Kullanılarak Web Kullanım Yönteminin Web Log Kayıtlarına Uygulanması. IJCI Proceeding of International Conference on Signal Processing, ISSN 1304-2386, (1)2. 17. Belen, E., Özgür, Ç., Özakar, B. (2003). WALA: Web Erişim Kütük Araştırmacısı (Web Access log Analyser). (inet-tr 03) IX. Türkiye'de Internet Konferansı, (11 13 Aralık 2003) Bildirileri, İstanbul. 18. Özakar, B., Püskülcü, H. (2002). Web içerik ve web kullanım madenciliği tekniklerinin entegrasyonu ile oluşmuş bir veri tabanından nasıl yararlanılabilir? 19. Iocchi, L. (1999). The Web OEM approach to Web Information Extraction. Journal of Network and Computer Applications, (22), 259-269. 20. Habegger, B., Quafafou, M.(2004). Building web information extraction tasks. Web Intelligence (WI), IEEE/WIC/ACM International Conference (20 24 Sept. 2004) 349 355. 21. Albanese, M., Picariello, A., Sansone C., Sansone, L (2004). A Web Personalization System Based on Web Usage Mining Techniques. 17-22, New York, USA. 22. Facca, F.M., Lanzi, P.L. (2005). Mining interesting knowledge from web logs: a survey, Elsevier Science, Data & Knowledge Engineering (53), 225-241. 23. Habegger, B., Quafafou, M., (2004). Web services for information extraction from the Web, Web Services, IEEE International Conference (6-9 July 2004) 279 286. 24. Takcı, H., Soğukpınar, İ. (2002). Kütüphane Kullanıcılarının Erişim Desenlerinin Keşfi. Akademik Bilişim 02 Konferansı, Selçuk Üniversitesi, Konya, (6 8 Şubat 2002). 25. Takcı, H., Soğukpınar, İ. (2002). Kütüphane Kullanıcılarının Erişim Örüntülerinin Keşfi. Bilgi Dünyası (Nisan 2002 )Bildirileri, (3)1, 12 26. 26. Internet: Nihuo Web Log Analyzer (NWLA), http://www.nihuo.com/ ve http://www.loganalyzer.net/, Erişim tarihi: Mayıs 2007 27. Internet: SARG, http://sarg.sourceforge.net, Erişim tarihi: Mayıs 2007. 28. Internet: eweblog Analyzer, http://www.esoftys.com/, Erişim tarihi: Mayıs 2007. 29. Internet: Web Log Mixer, http://www.bitstrike.com/, Erişim tarihi: Mayıs 2007. 30. Guo, L., Xiang, X., Shi, Y. (2004). Use Web Usage Mining to Asist Online E-Learning Assessment. Proceedings of the IEEE International Conference on Advanced Learning Technoligies (ICALT 04), China. 31. Di Guo, (2006). Collector Engine System: A Web Mining Tool for E-Commerce. Innovative Computing, Information and Control, First International Conference, (2)1, 632 635. 32. Cooley, R. (2000).Web Usage Mining: Discovery and Application of Interesting Patterns from Web Data. Doktora tezi, University of Minnesota, 170s. 33. Gündüz, Ş. (2003). Recommendation Models for Web Users: User Interest Model and Click- Stream Tree. Doktora tezi, Istanbul Technical University, Institute of Science and Technology, 104s. 34. Gündüz, Ş., Adalı, E. (2004). Web kullanıcılarının davranışları için örüntü bulma ve modelleme. İstanbul Teknik Üniversitesi, Mühendislik Dergisi, (3)6, 15 24, Aralık 2004, İstanbul. 35. Bulut, B. (2006). Veri Yöntemlerinin İncelenmesi ve Uygulamaları, Yüksek Lisans Semineri, Fırat Üniversitesi, Fen Bilimleri Enstitüsü, 53s. 36. Mitra, S., Acharya, T. (2003). Data Mining: Multimedia, Soft Computing and Bioinformatics A John Wiley & Sons, Inc. Publication, USA. 37. Nong Ye, (2003). The Handbook of Data Mining, Lawrence Erlbaum Associates publishing Company Inc. London. 501

R. Daş, İ.Türkoğlu ve M. Poyraz 38. Michael J.A.Berry, Gordon Linoff, (1997). Data Mining Techniques, Published by John Wiley & Sons, Inc. USA. 39. Ye, Nong (Ed). (2003). The Handbook of Data Mining, Lawrence Erlbaum Associates, Publishers, Mahwah, New Jersey, London. 40. Etzioni, O. (1996). The World Wide Web: Quagmire or gold mine? Communication of the ACM, 39 (11), 65 68. 41. Wang Bin, Liu Zhijing, (2003). Web Mining Research, Proceedings of the Fifth International Conference on Computational Intelligence and Multimedia Applications (ICCIMA 03), IEEE Computer Society. 42. Yew-Kwong Woon, Wee-Keong Ng, Ee-Peng Lim (2002). Online and Incremental Mining of Separately-Grouped Web Access Logs, Proceedings of the 3rd International Conference on Web Information Systems Engineering (WISE 02), IEEE Computer Society. 43. Carlos G. Marquardt, Karin Becker, Duncan D. Ruiz. (2004). A Pre-processing Tool for Web Usage Mining in the Distance Education Domain. Proceedings of the International Database Engineering and Applications Symposuim (IDEAS 04), IEEE Computer Society. 44. Sutheera Puntheeranurak, Hidekazu Tsuji, (2005). Minings Web logs for a Personalized Recommender System, IEEE Computer Society. 45. Khasawneh, N., Chien-Chung, C. (2006). Active User-Based and Ontology-Based Web Log Data Preprocessing for Web Usage Mining, Proceedings of the IEEE/WIC/ACM International Conference on Web Intelligence (WI 06), IEEE Computer Society. 46. Mobasher, B., Cooley, R., Srivastava, J. (2000). Automatic Personalization based on Web Usage Mining. Communications of the ACM, (43)8, 142-151. 47. Chen, J., Liu, W. (2006). Research for Web Usage Mining Model. International Conference on Computational Intelligence for Modelling Control and Automation Intelligent Agents, Web Technologies and Internet Commerce, (CIMCA-IAWTIC 06). 48. Liu, L., Chen, J., Song, H. (2002). The Research of Web Mining. Proceedings of the 4th World Congress on Intelligent Control and Automation, June 10 14, Shanghai/China. 49. Feng Zhang, Hui-You Chang, (2002). Research and Development in Web Usage Mining System- 502 Key Issues and Proposed Solutions: A Survey. Proceedings of the First International Conference on Machine Learning and Cybernetics, (4 5 November 2002) 986 990, Beijing. 50. Khasawneh, N., Chan, C.C. (2005).Web Usage Mining Using Rough Sets. IEEE Annual Meeting of the North American Fuzzy Information Processing Society (NAFIPS 05). 51. Huiying, Z., Wei, L., (2004). An Intelligent Algorithm of Data Pre-processing in Web Usage Mining. Proceedings of the 5th World Congress on Intelligent Control and Automation, June 15-19, IEEE, Hangzhou, China. 52. Guo, L., Xiang, X., Shi, Y. (2004). Use Web Usage Mining to Assist Online E-Learning Assessment. IEEE International Conference on Advanced Learning Technologies (ICALT 04). 53. Internet: Configuration File of W3C, http://www.w3.org/daemon/user/config/, Erişim tarihi: Kasım 2006. 54. Internet: Extended Log file Format, http://www.w3.org/tr/wd-logfile.html, Erişim tarihi: Kasım 2006. 55. Mortazavi-Asl, B. (2001). Discovering and Mining user web-page traversal patterns. Yüksek Lisans Tezi, Simon Fraser University. 56. Internet: NetIQ Web Trends Log Analyzer, http://www.netiq.com/, Erişim tarihi: Mayıs 2007. 57. Internet: WebTrends Marketing Web Analytics and Web Statistics, http://www.webtrends.com, Erişim tarihi: Mayıs 2007. 58. Internet: Funnel Web Analyzer, http://www.quest.com/,erişim tarihi:mayıs 2007. 59. Internet: SPSS, http://www.spss.com/clementine/, Erişim tarihi: Mayıs 2007. 60. Internet: Megaputer Web Analyst, http://www.megaputer.com/products/wa/index.ph p3, Erişim tarihi: Mayıs 2007. 61. Internet: The Platform for Privacy Preferences 1.0 Specification, http://www.w3.org/tr/p3p/, Erişim tarihi: Mayıs 2007. 62. Zhou, B., Hui, S.C., Fong, A.C.M. (2005). Discovering and Visualizing Temporal-based Web Access Behavior, International Conference on Web Intelligence (WI 05) - IEEE/WIC/ACM.

Web Kayıt Dosyalarından İlginç Örüntülerin Keşfedilmesi 63. Kim, Y., Lee, K., (2005). Detecting tables in Web documents. Engineering Applications of Artificial Intelligence 18, 745-757. 64. Zhou, B., Hui, S.C., Chang, (2004). An Intelligent Recommender System using Sequential Web Access Patterns. Proceeedings of the 2004 IEEE Conference on Cybernetics and Intelligent Systems, (1-3 December 2004), Singapore. 65. Zhang, X., Edwards, J., Harding, J., (2007). Personalised online sales using web usage data mining, Computers in Industry. 66. Oosthuizen, C., Wesson, J., Cilliers, C. (2006). Visual Web mining of Organizatioanl Web Sites. Proceedings of the Information Visualization (IV 06), IEEE Computer Society. 67. Jian-Gua Liu, Wei-ping Wu. (2004). Web Usage Mining for Electronic Business Applications. Proceedings of the Third International Conference on Machine Learning and Cybernetics, (26 29 August 2004), Shanghai, 68. Kang, M., Cho, D., (2001). Adaptive Web Site Construction Using Art. IEEE Internatonal Symposium on Industrial Electronic Proceedings ISIE 01, (June 12 16), Pusan, Korea, 69. Ayaz, R. (2007). Web ne Bir Bakış. Yıldız Teknik Üniversitesi, Bilgisayar Mühendisliği, İstanbul. 503