Web Madenciliği (Web Mining)



Benzer belgeler
Web Madenciliği (Web Mining)

İşletim Sistemleri. Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü

BİT ini Kullanarak Bilgiye Ulaşma ve Biçimlendirme (web tarayıcıları, eklentiler, arama motorları, ansiklopediler, çevrimiçi kütüphaneler ve sanal

ÇARPANLAR VE KATLAR BİR DOĞAL SAYININ ÇARPANLARINI BULMA. 3. Aşağıda verilen sayıların çarpanlarından asal olanları belirleyelim.

İSTANBUL TİCARET ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ BİLGİSAYAR SİSTEMLERİ LABORATUARI YÜZEY DOLDURMA TEKNİKLERİ

MAT223 AYRIK MATEMATİK

7. SINIF MATEMATİK TESTİ A. 1. Yandaki eşkenar dörtgensel bölge şeklindeki uçurtma I, II, III ve IV nolu

SÜREÇ YÖNETİMİ VE SÜREÇ İYİLEŞTİRME H.Ömer Gülseren > ogulseren@gmail.com

Microswitchli çubuk termostat

Bilişim Sistemleri. Modelleme, Analiz ve Tasarım. Yrd. Doç. Dr. Alper GÖKSU

Bilgisayar Teknolojileri Bölümü Bilgisayar Programcılığı Programı. Öğr. Gör. Cansu AYVAZ GÜVEN

ADANA BÜYÜKŞEHİR BELEDİYESİ KENTSEL DÖNÜŞÜM PROJELERİ

BÖLÜM 7 BİLGİSAYAR UYGULAMALARI - 1

BİLGİ TEKNOLOJİLERİ VE İLETİŞİM KURULU KARARI

DİKKAT! SORU KİTAPÇIĞINIZIN TÜRÜNÜ "A" OLARAK CEVAP KÂĞIDINA İŞARETLEMEYİ UNUTMAYINIZ. SAYISAL BÖLÜM SAYISAL-2 TESTİ

Büyük Veri Analitiği (Big Data Analytics)

Danışma Kurulu Tüzüğü

Özet şeklinde bilgiler

HAM PUAN: Üniversite Sınavlarına giren adayların sadece netler üzerinden hesaplanan puanlarına hem puan denir.

Asimetrik Kriptografi

Mehmet Fatih AMASYALI Bilgisayar Mühendisliği Bölümü Yıldız Teknik Üniversitesi İstanbul, Türkiye

TOLERANSLAR VE YÜZEY İŞLEME İŞARETLERİ

DEĞERLENDİRME NOTU: Mehmet Buğra AHLATCI Mevlana Kalkınma Ajansı, Araştırma Etüt ve Planlama Birimi Uzmanı, Sosyolog

Üç-fazlı 480 volt AC güç, normalde-açık "L1", "L2" ve "L3" olarak etiketlenmiş vida bağlantı uçları yoluyla kontaktörün tepesinde kontak hale gelir

İSTATİSTİK GENEL MÜDÜRLÜĞÜ

Şekil 1. Sistem Açılış Sayfası

BİLGİSAYAR DONANIMI. *** Gerçekleştirdikleri görev bakımından donanım birimleri ikiye ayrılır.

AIMCO AIMCO. Kullanım Kılavuzu. Mayıs 2016

Etkinliklere katılım, ücretli ve kontenjan ile sınırlıdır.

Araştırma Notu 15/177

BİR SAYININ ÖZÜ VE DÖRT İŞLEM

ELITE A.G. KS100/HEFM SICAK-SOĞUK ETĐKET BOY KESME VE ĐŞARETLEME MAKĐNASI KULLANIM KILAVUZU

Analiz aşaması sıralayıcı olurusa proje yapımında daha kolay ilerlemek mümkün olacaktır.

ÖĞRENME FAALĠYETĠ GELĠġMĠġ ÖZELLĠKLER


AÖĞRENCİLERİN DİKKATİNE!

KolayOfis Başlangıç Rehberi Kısa Mesaj Yönetimi

Osmancık İsmail Karataş Sağlık Meslek Lisesi

Uzem Eğitmen Girişi. Şekil 1. Sisteme girdikten sonra Şekil 2 deki ekran karşımıza çıkacak. Bu ekrandaki adımları kısaca tanıyalım.

Veri Toplama Yöntemleri. Prof.Dr.Besti Üstün

VEGAWINA VERSION

BULUŞ BİLDİRİM FORMU / APARAT

SAKARYA ÜNİVERSİTESİ LİSANS DÜZEYİNDEKİ PROGRAMLAR ARASINDA ÇİFT ANADAL (ÇAP) ve YANDAL PROGRAMI YÖNERGESİ

Ek 1. Fen Maddelerini Anlama Testi (FEMAT) Sevgili öğrenciler,

Sosyal Kataloglama Siteleri ve Yeni Nesil Kütüphane Katalogları

SÜRE BİLİŞİM TEKNOLOJİLERİ ÜNİTE 1: : BİLGİ VE TEKNOLOJİ DERS SAATİ: 7

SİRKÜLER. 1.5-Adi ortaklığın malları, ortaklığın iştirak halinde mülkiyet konusu varlıklarıdır.

İSTANBUL KEMERBURGAZ ÜNİVERSİTESİ BURS YÖNERGESİ. BİRİNCİ BÖLÜM Amaç, Kapsam, Dayanak ve Tanımlar

ATAÇ Bilgilendirme Politikası

1. RESİM DÜZENLEME. Bir resmin piksel yoğunluğu yani PPI (Pixel Per Inches) 1 inç karede (1 inç = 2.54 cm) bulunan piksel sayısıdır.

İLKÖĞRETİM 1. SINIF MATEMATİK DERSİ SAYMA, TOPLAMA ve ÇIKARMA İŞLEMİ BECERİLERİ

Türk-Alman Üniversitesi Mühendislik Fakültesi Staj Yönergesi. Ek İsterler

MAKÜ YAZ OKULU YARDIM DOKÜMANI 1. Yaz Okulu Ön Hazırlık İşlemleri (Yaz Dönemi Oidb tarafından aktifleştirildikten sonra) Son aktif ders kodlarının

YÖNETMELİK ANKARA ÜNİVERSİTESİ YABANCI DİL EĞİTİM VE ÖĞRETİM YÖNETMELİĞİ BİRİNCİ BÖLÜM. Amaç, Kapsam, Dayanak ve Tanımlar

turulması ve Etiket talebi

BİLGİ TEKNOLOJİLERİ VE İLETİŞİM KURULU KARARI

KAVRAMLAR. Büyüme ve Gelişme. Büyüme. Büyüme ile Gelişme birbirlerinden farklı kavramlardır.

AKSARAY ÜNİVERSİTESİ. Amaç, Kapsam, Dayanak ve Tanımlar


Olasılık ve İstatistik Dersinin Öğretiminde Deney ve Simülasyon

Temel Bilgisayar Programlama

Digifresh Kullanım Kılavuzu

11. TASARIM ŞABLONU KULLANARAK SUNU HAZIRLAMAK

VEZNE PROGRAMINDA POSTA ÜCRETİ İLE İLGİLİ YAPILAN DÜZENLEMELER (Vezne Sürüm: )

Öğrencilerimiz TED Kayseri Kolejinde Ulusal Sorunları ve Çözümleri Tartıştılar

ASANSÖR VE ASANSÖR GÜVENLĐK AKSAMLARINDA CE ĐŞARETLEMESĐ

Bülten Başlığı. Birincil Yazı Başlığı. İkincil Yazı Başlığı. İş Adı. İlgi çeken özel konular: Bu sayıda:

Tasarım Raporu. Grup İsmi. Yasemin ÇALIK, Fatih KAÇAK. Kısa Özet

Küçük Çaplı Yatayda 1 Saatlik Yangın Dayanım Testi 1

OPERATÖRLER BÖLÜM Giriş Aritmetik Operatörler

SİİRT ÜNİVERSİTESİ UZAKTAN EĞİTİM UYGULAMA VE ARAŞTIRMA MERKEZİ YÖNETMELİĞİ BİRİNCİ BÖLÜM. Amaç, Kapsam, Dayanak ve Tanımlar. Amaç

Expert modülleri üretiminizi optimize eder. Expert Systemtechnik GmbH. Türkçe. Dö emeli mobilyalar

Topoloji değişik ağ teknolojilerinin yapısını ve çalışma şekillerini anlamada başlangıç noktasıdır.

Parametrik Yapı Modelleme: BIM in Temeli

Pazarlama ve Reklamcılık Bölümü Pazarlama Programı Öğr. Gör. Cansu AYVAZ GÜVEN

Algoritmalara Giriş Massachusetts Institute of Technology Profesör Erik D. Demaine ve Charles E. Leiserson. Problem Seti 6 Çözümleri

HÂKİMLER VE SAVCILAR YÜKSEK KURULU

İçinde x, y, z gibi değişkenler geçen önermelere açık önerme denir.

Otizm lilerin eğitim hakkı var mıdır? Nedir ve nasıl olmalıdır?

TÜBİTAK TÜRKİYE BİLİMSEL VE TEKNİK ARAŞTIRMA KURUMU BİLİM ADAMI YETİŞTİRME GRUBU ULUSA L İLKÖĞRETİM MA TEMATİK OLİMPİYADI DENEME SINAVI.

Akademik Personel ve Lisansüstü Eğitimi Giriş Sınavı. ALES / Đlkbahar / Sayısal II / 22 Nisan Matematik Soruları ve Çözümleri

Bölgeler kullanarak yer çekimini kaldırabilir, sisli ortamlar yaratabilirsiniz.

KDU (Kazanım Değerlendirme Uygulaması) nedir?

DOKÜMAN YÖNETİM SİSTEMİ KULLANIMI GELEN EVRAK

YILDIRIM BEYAZIT ÜNİVERSİTESİ İŞ SAĞLIĞI VE GÜVENLİĞİ KOORDİNATÖRLÜĞÜ YÖNERGESİ BİRİNCİ BÖLÜM

KATALOG TAKİP SİSTEMİ KULLANIMI

5. ÜNİTE KUMANDA DEVRE ŞEMALARI ÇİZİMİ

Rekabet Kurumu Başkanlığından, REKABET KURULU KARARI

YAPAY ZEKA Problem Çözme ve Karar Verme Problem Çözme Süreci

VERGİ SİRKÜLERİ NO: 2009/31 TARİH: Ar-Ge ve Destek Personeline Yönelik Gelir Vergisi Stopaj Teşviki Uygulamasında Yapılan Değişiklik

K12NET Eğitim Yönetim Sistemi

01 OCAK 2015 ELEKTRİK AKIMI VE LAMBA PARLAKLIĞI SALİH MERT İLİ DENİZLİ ANADOLU LİSESİ 10/A 436

ÖĞRENME FAALĠYETĠ 6 ÖĞRENME FAALĠYETĠ NESNE ĠġLEMLERĠ

Video Dizilerinden Reklam Saptama ve İndeksleme

TOBB ETÜ LİSANSÜSTÜ BURSLU ÖĞRENCİ YÖNERGESİ* (*) Tarih ve S sayılı Senato oturumunun 4 nolu Kararı ile Kabul edilmiştir.

İstemci Yönetimi ve Mobile Printing (Mobil Baskı) Çözümleri

VERİ MADENCİLİĞİ. İlişkilendirme Kuralları Bulma. İlişkilendirme Kuralları. Yaygın Öğeler. İlişkilendirme Kuralları Madenciliği

inde Sepet Analizi Uygulamaları Market Basket Analysis for Data Mining

GAZİ ÜNİVERSİTESİ MÜHENDİSLİK-MİMARLIK FAKÜLTESİ KİMYA MÜHENDİSLİGİ BÖLÜMÜ KM 482 KİMYA MÜHENDİSLİĞİ LABORATUVARI III. DENEY 1b.

Transkript:

Web Madenciliği (Web Mining) Hazırlayan: M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Konular Sıralı Örüntülerin Temelleri GSP Tabanlı Sıralı Örüntü Madenciliği Algoritma Sıralı Örüntülerden Kural Oluşturulması Sıralı Kurallar Etiket Sıralı Kurallar Sınıf Sıralı Kurallar 2 1

Sıralı Örüntülerin Temelleri Birliktelik kural madenciliğinde transaction ların sırası gözönüne alınmaz. Bazı uygulamalarda item ların sırası da önemlidir. Kullanıcıların Web sayfalarındaki ziyaret sırası Web kullanım madenciliğinde faydalıdır. Metin madenciliğinde cümle içerisindeki kelimelerin sırası dilsel örüntülerin elde edilmesi için önemlidir. Bir müşteri üç ay içerisinde, önce bilgisayar, sonra CD-ROM, ardından video kamera alıyor. Sağlıkla ilgili verilerde, deprem gibi doğal afetlerde, telefon çağrı örüntülerinin analizinde, DNA sıra analizi ve gen analizinde kullanılır. 3 Sıralı Örüntülerin Temelleri I = {i 1, i 2,, i m } item lar kümesidir. Bir sequence X ise, itemset lerin sıralı listesidir (X I). Bir sequence s= a 1 a 2 a r şeklinde gösterilir. Burada, a i element olarak adlandırılır ve bir itemset tir. Bir a i = {x 1, x 2,, x k } olarak gösterilir. Burada, x j I dir. 4 2

Sıralı Örüntülerin Temelleri Bir sequence içerisindeki element teki item lar lexicographic (sözlüksel) sıralıdır. Bir item bir element içerisinde sadece bir kez bulunur. Ancak, farklı element lerde birden fazla bulunabilir. Bir sequence için size (boyut) içindeki element sayısı ile ifade edilir. Length (uzunluk) ise içerisindeki item sayısı ile ifade edilir. Uzunluğu k olan sequence ise k-sequence olarak gösterilir (Farklı element içinde aynı item ların tekrarı uzunluğu etkiler). Eğer, s 1 = a 1 a 2 a r ve s 2 = b 1 b 2 b v şeklinde iki sequence için 1 j 1 < j 2 < < j r-1 < j r v şeklindeki sayılar için a 1 b j1, a 2 b j2,, a r b jr olursa, s 2 sequence i s 1 sequence ini kapsar (s 2 supersequence, s 1 subsequence). 5 Örnek Sıralı Örüntülerin Temelleri I = {1, 2, 3, 4, 5, 6, 7, 8, 9}. {3} {4, 5} {8} sequence i {6} {3, 7} {9} {4, 5, 8} {3, 8} sequence inin subsequence idir. {3} {3, 7}, {4, 5} {4, 5, 8}, ve {8} {3, 8}. Ancak, {3}{8} sequence i, {3, 8} sequence i tarafından kapsanmaz. {3}{4, 5}{8} sequence inin size ı 3, ve length i ise 4 tür. 6 3

Örnek Sıralı Örüntülerin Temelleri Örnekte minsup = 2 transaction için <{ab}{c}> örnek bir sıralı örüntüdür. Müşteri No sequence 10 <{a}{abc}{ac}{d}{cf}> 20 <{ad}{c}{bc}{ae}> 30 <{ef}{ab}{df}{cb}> 40 <{eg}{af}{cbc}> 7 Örnek Sıralı Örüntülerin Temelleri Aşağıdaki tabloda bir market sepeti transaction ları verilmiştir. 8 4

Örnek Sıralı Örüntülerin Temelleri Aşağıda müşteri sıralaması görülmektedir. Aşağıda minsup = %25 (en az 2 müşteri) transaction için sıralı örüntüler görülmektedir. 9 Konular Sıralı Örüntülerin Temelleri GSP Tabanlı Sıralı Örüntü Madenciliği Algoritma Sıralı Örüntülerden Kural Oluşturulması Sıralı Kurallar Etiket Sıralı Kurallar Sınıf Sıralı Kurallar 10 5

GSP Tabanlı Sıralı Örüntü Madenciliği GSP (Generalized Sequential Pattern) algoritması Apriori algoritmasıyla aynı şekilde çalışır. F k frequent k-sequence leri, C k ise tüm aday k-sequence leri tutar. Temel farklılık aday oluşturma fonksiyonu olan candidate-gen- SPM() fonksiyonudur. İki sequence in birleşiminde yeni bir aday sequence elde edilir. Ancak ardarda eklenebilir özellikte olmaları gereklidir. 11 Konular Sıralı Örüntülerin Temelleri GSP Tabanlı Sıralı Örüntü Madenciliği Algoritma Sıralı Örüntülerden Kural Oluşturulması Sıralı Kurallar Etiket Sıralı Kurallar Sınıf Sıralı Kurallar 12 6

Algoritma Aday 1-sequences Frequent 1-sequences Aday k-sequences minsup değerinden büyükse frequent k-sequence yapıldı. 13 Algoritma Function candidate-gen-spm(f k-1 ) // SPM: Sequential Pattern Mining 1. Join adımı: Aday sequence ler F k-1 ile F k-1 birleştirilerek elde edilir. Eğer s 1 sequence inin ilk item ını çıkardıktan sonra kalan sequence ile, s 2 sequence inin son item ını çıkardıktan sonra kalan sequence aynı ise, s 1 sequence ine ile s 2 sequence i eklenir (s 1 ={1, 2, 3}, s 2 ={2, 3, 4}). - Eğer eklenen item ayrı bir element ise yeni sequence in sonuna element olarak eklenir. - Diğer durumlarda s 1 sequence inin son elementi ile s 2 sequence inin ilk elementi birleştirilir. 2. Prune adımı: Eğer aday sequence in (k-1) subsequence lerinden birisi frequent değilse aday kümeden silinir. 14 7

Algoritma Aşağıdaki tabloda F 3, C 4 ve prune adımından sonra elde edilen sequence ler görülmektedir. {1, 2}{4} ile {2}{4, 5} birleştirilir ve {1,2}{4, 5} oluşur. {1, 2}{4} ile {2}{4}{6} birleştirilir ve {1,2}{4}{6} oluşur. {1}{4, 5} birleştirilemez. {4, 5}{x} veya {4, 5, x} gereklidir. Pruning adımında {1, 2}{4}{6} silinir. Çünkü {1}{4}{6} F 3 te yoktur. 15 Konular Sıralı Örüntülerin Temelleri GSP Tabanlı Sıralı Örüntü Madenciliği Algoritma Sıralı Örüntülerden Kural Oluşturulması Sıralı Kurallar Etiket Sıralı Kurallar Sınıf Sıralı Kurallar 16 8

Sıralı Örüntülerden Kural Oluşturulması Elde edilen sıralı örüntülerden, sıralı kurallar, etiket sıralı kurallar ve sınıf sıralı kurallar oluşturulabilir. Elde edilen kurallar özellikle Web kullanım madenciliğinde ve Web içerik madenciliğinde kullanılır. Web kullanım madenciliğinde clickstream örüntülerinin elde edilmesi amacıyla kullanılır. Elde edilen örüntüler, kullanıcıların sık eriştikleri sayfaların, nesnelerin veya kaynakların gösteriminde kullanılır. Web içerik madeciliğinde Web sayfalarındaki bilgilerin elde edilmesi amaçlanır. İçeriğe göre kategoriler oluşturma, öbekleme ve sorguyla ilişki düzeyi belirleme yapılabilir. 17 Konular Sıralı Örüntülerin Temelleri GSP Tabanlı Sıralı Örüntü Madenciliği Algoritma Sıralı Örüntülerden Kural Oluşturulması Sıralı Kurallar Etiket Sıralı Kurallar Sınıf Sıralı Kurallar 18 9

Sıralı Kurallar Bir sıralı kural X Y şeklinde ifade edilir. Burada, Y bir sequence dir ve X ise Y nin subsequence dir. Y sequence inin length i X in length inden büyüktür. X Y şeklindeki bir sıralı kuralın support değeri, bir sıralı veritabanı S içerisinde Y nin bulunma oranıdır. X Y şeklindeki bir sıralı kuralın confidence değeri, bir sıralı veritabanı S içerisinde Y nin X ile birlikte bulunma oranıdır. 19 Örnek Sıralı Kurallar Aşağıdaki tabloda minsup = %30 ve minconf = %60 olsun. Bir sıralı kural aşağıdaki gibi olabilir: 1., 2. ve 3. sequence lerde {1}{7} vardır. 1. ve 2. sequence lerde {1}{3}{7,8} vardır. 20 10

Konular Sıralı Örüntülerin Temelleri GSP Tabanlı Sıralı Örüntü Madenciliği Algoritma Sıralı Örüntülerden Kural Oluşturulması Sıralı Kurallar Etiket Sıralı Kurallar Sınıf Sıralı Kurallar 21 Etiket Sıralı Kurallar Bir etiket sıralı kural X Y şeklinde ifade edilir. Burada, Y bir sequence dir ve X ise Y de bazı item ların yerine wildcard (*) konularak oluşturulan bir sequence dir. Wildcard konulan item ler genellikle önemlidir ve etiket olarak adlandırılır. Aşağıdaki tabloda minsup = %30 ve minconf = %60 olsun. 22 11

Örnek Etiket Sıralı Kurallar Bir etiket sıralı kural aşağıdaki gibi olabilir: Burada, {*} sadece bir item a sahip bir element i gösterir. {1} ile veya {7, *} ile kendi arasında başka element ler olabilir. {7, *} da ise 7 ile başlayan iki item a sahip tüm element ler ifade edilmektedir. 1. ve 2. sequence lerde {1}{*}{7, *} vardır. 1. ve 2. sequence lerde {1}{3}{7,8} vardır. Burada, item 3 ve 8 etiket olarak adlandırılır. 23 Konular Sıralı Örüntülerin Temelleri GSP Tabanlı Sıralı Örüntü Madenciliği Algoritma Sıralı Örüntülerden Kural Oluşturulması Sıralı Kurallar Etiket Sıralı Kurallar Sınıf Sıralı Kurallar 24 12

Sınıf Sıralı Kurallar Sınıf sıralı kurallar (class sequential rules - CSR), sınıf birliktelik kurallarına benzer. S bir sequence kümesi olsun. Buradaki her sequence bir y sınıfına etiketlensin. I kümesi S kümesindeki tüm item ların kümesi ve Y ise tüm sınıfların kümesi olsun (I Y = ). Giriş verisi D = {(s 1, y 1 ), (s 2, y 2 ),, (s n, y n )} olsun (s i S ve y i Y). Bir sınıf sıralı kural X y şeklinde ifade edilir. Burada, X bir sequence dir ve y Y dir. Eğer, X sequence i s i nin subsequence i ise, (s i, y i ) verisi X y kuralını kapsar (cover). Eğer, X sequence i s i nin subsequence i ve y i = y ise, (s i, y i ) verisi X y kuralını karşılar (satisfy). 25 Örnek Sınıf Sıralı Kurallar Aşağıdaki tabloda minsup = %30 ve minconf = %60 olsun. Bir sınıf sıralı kural aşağıdaki gibi olabilir: 1., 2. ve 5. sequence ler bu kuralı kapsar. 1. ve 2. sequence leri bu kuralı karşılar. 26 13

Ödev Sıralı kural madenciliği ile ilgili bir uygulama alanı hakkında detaylı araştırma ödevi hazırlayınız. 27 14