Büyük Veri Analitiği (Big Data Analytics)

Benzer belgeler
Web Madenciliği (Web Mining)

Büyük Veri Analitiği (Big Data Analytics)

Büyük Veri Analitiği (Big Data Analytics)

Web Madenciliği (Web Mining)

Büyük Veri Analitiği (Big Data Analytics)

Büyük Veri Analitiği (Big Data Analytics)

Büyük Veri Analitiği (Big Data Analytics)

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining)

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Web Madenciliği (Web Mining)

Büyük Veri Analitiği (Big Data Analytics)

Web Madenciliği (Web Mining)

Arama metodlarında temel işlem anahtarları karşılaştırmaktır.

İleri Diferansiyel Denklemler

Lineer Denklem Sistemleri Kısa Bilgiler ve Alıştırmalar

Zeki Optimizasyon Teknikleri

BÖLÜM III: Şebeke Modelleri. Şebeke Kavramları. Şebeke Kavramları. Şebeke Kavramları. Yönlü Şebeke (Directed Network) Dal / ok

m=n şeklindeki matrislere kare matris adı verilir. şeklindeki matrislere ise sütun matrisi denir. şeklindeki A matrisi bir kare matristir.

Graflar bilgi parçaları arasındaki ilişkileri gösterirler.

Aramanın Anatomisi 1

Temel Kavramlar. (r) Sıfırdan farklı kompleks sayılar kümesi: C. (i) Rasyonel sayılar kümesi: Q = { a b

Okut. Yüksel YURTAY. İletişim : (264) Sayısal Analiz. Giriş.

Ayrık Fourier Dönüşümü

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

İleri Diferansiyel Denklemler

Genel Graf Üzerinde Mutlak 1-merkez

Bekleme Hattı Teorisi

BİLGİSAYAR PROGRAMLAMA DERSİ

Zeki Optimizasyon Teknikleri

Fonksiyon Optimizasyonunda Genetik Algoritmalar

Matrisler ve matris işlemleri

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

Arama motoru: kuş gribinin etkileri

MARKOV ZİNCİRLERİNDE DURUMLARIN SINIFLANDIRILMASI

Temel Kavramlar 1 Doğal sayılar: N = {0, 1, 2, 3,.,n, n+1,..} kümesinin her bir elamanına doğal sayı denir ve N ile gösterilir.

Graf Veri Modeli. Düğümler kümesi. Kenarlar kümesi

Doku ve Hastalıklara Özgü Büyük Ölçekli Biyolojik Ağları Oluşturul ası ve Analizi

Bu bölümde; Çok ölçütlü karar verme yöntemlerinden biri olan TOPSİS yöntemi anlatılacaktır.

Genetik Algoritmalar. Bölüm 1. Optimizasyon. Yrd. Doç. Dr. Adem Tuncer E-posta:

Büyük, Dağıtık, Veri Yoğunluklu Uygulamalarda Programlama Paradigmaları

ÖZDEĞERLER- ÖZVEKTÖRLER

3. BÖLÜM MATRİSLER 1

METASEZGİSEL YÖNTEMLER

Yıldız Teknik Üniversitesi Endüstri Mühendisliği Bölümü KARAR TEORİSİ MARKOV SÜREÇLERİ. Markov Analizi

ULAŞTIRMA MODELİ VE ÇEŞİTLİ ULAŞTIRMA MODELLERİ

YZM ALGORİTMA ANALİZİ VE TASARIM DERS#9: AÇGÖZLÜ ALGORİTMALAR

2. HAFTA BLM323 SAYISAL ANALİZ. Okt. Yasin ORTAKCI.

Kasım Müslüm ASLANTÜRK

İLİŞKİSEL VERİTABANLARI

LSI Keywords İle Sitenizin Sıralamasını Ve Trafiğini Arttırın

Backlink Değerlendirme Algoritmaları

MAK 210 SAYISAL ANALİZ

MAK 210 SAYISAL ANALİZ

Tanımlayıcı İstatistikler. Yrd. Doç. Dr. Emre ATILGAN

Hatalar ve Bilgisayar Aritmetiği

Web Madenciliği (Web Mining)

Olasılık, bir deneme sonrasında ilgilenilen olayın tüm olaylar içinde ortaya çıkma ya da gözlenme oranı olarak tanımlanabilir.

KARINCA KOLONİ ALGORİTMASI BMÜ-579 Meta Sezgisel Yöntemler. Yrd. Doç. Dr. İlhan AYDIN Fırat Üniversitesi, Bilgisayar Mühendisliği Bölümü

AHP ANALİTİK HİYERARŞİ PROSESİ AHP AHP. AHP Ölçeği AHP Yönteminin Çözüm Aşamaları

Kelime Gösterimleri (Word Representation Word Embeddings)

7. BÖLÜM BARA ADMİTANS VE BARA EMPEDANS MATRİSLERİ

İleri Diferansiyel Denklemler

İleri Diferansiyel Denklemler

k ise bir gerçek sayı olsun. Buna göre aşağıdaki işlemler Matlab da yapılabilir.

Yrd. Doç. Dr. A. Burak İNNER

Örnek...3 : Aşağıdaki ifadelerden hangileri bir dizinin genel terim i olabilir? Örnek...4 : Genel terimi w n. Örnek...1 : Örnek...5 : Genel terimi r n

DOSYA ORGANİZASYONU. Ağaç Yapıları ÖZLEM AYDIN TRAKYA ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ

AHP ye Giriş Karar verici, her alternatifin her kriterde ne kadar başarılı olduğunu değerlendirir. Her kriterin amaca ulaşmadaki görece önemini değerl

YZM VERİ YAPILARI DERS#9: HASH FONKSİYONLARI

SÜREKLĠ OLASILIK DAĞILIMLARI

Algoritmalar. Arama Problemi ve Analizi. Bahar 2016 Doç. Dr. Suat Özdemir 1

4. HAFTA BLM323 SAYISAL ANALİZ. Okt. Yasin ORTAKCI.

SEO Nedir? SEO = Pazarlama + Strateji

Temel Elektronik Basic Electronic Düğüm Gerilimleri Yöntemi (Node-Voltage Method)

Algoritma Geliştirme ve Veri Yapıları 9 Ağaç Veri Modeli ve Uygulaması. Mustafa Kemal Üniversitesi

VERİ MADENCİLİĞİ (Web Madenciliği)

Buna göre, eşitliği yazılabilir. sayılara rasyonel sayılar denir ve Q ile gösterilir. , -, 2 2 = 1. sayıdır. 2, 3, 5 birer irrasyonel sayıdır.

Rastgele değişken nedir?

PERMÜTASYON, KOMBİNASYON. Örnek: Örnek: Örnek:

Örnek...3 : Aşağıdaki ifadelerden hangileri bir dizinin genel terim i olabilir?

Örnek 4.1: Tablo 2 de verilen ham verilerin aritmetik ortalamasını hesaplayınız.

Lineer Cebir. Doç. Dr. Niyazi ŞAHİN TOBB. İçerik: 1.1. Lineer Denklemlerin Tanımı 1.2. Lineer Denklem Sistemleri 1.3. Matrisler

Algoritma Geliştirme ve Veri Yapıları 10 Graf Veri Modeli. Mustafa Kemal Üniversitesi

ISK116 - Bölüm 1. Grup Teknolojisi

İstatistik ve Olasılık

BİL-142 Bilgisayar Programlama II

Yrd. Doç. Dr. A. Burak İNNER

2. (x 1 + x 2 + x 3 + x 4 + x 5 ) 10 ifadesinin açılımında kaç terim vardır?

MIT OpenCourseWare Ekonomide İstatistiksel Yöntemlere Giriş Bahar 2009

TEMEL KAVRAMLAR. SAYI KÜMELERİ 1. Doğal Sayılar

PARÇACIK SÜRÜ OPTİMİZASYONU BMÜ-579 METASEZGİSEL YÖNTEMLER YRD. DOÇ. DR. İLHAN AYDIN

TEOG. Sayma Sayıları ve Doğal Sayılar ÇÖZÜM ÖRNEK ÇÖZÜM ÖRNEK SAYI BASAMAKLARI VE SAYILARIN ÇÖZÜMLENMESİ 1. DOĞAL SAYILAR.

Arama Sonuçlarında Üst Sıralarda Olmak. Temel SEO Çalışması

Atatürk Anadolu. Temel Kavramlar Üzerine Kısa Çalışmalar

İleri Diferansiyel Denklemler

Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri. Mustafa Kemal Üniversitesi

KLASİK BULANIK MANTIK DENETLEYİCİ PROBLEMİ : INVERTED PENDULUM

Programlama Dilleri 1. Ders 3: Rastgele sayı üretimi ve uygulamaları

Transkript:

Büyük Veri Analitiği (Big Data Analytics) M. Ali Akcayol Gazi Üniversitesi Bilgisayar Mühendisliği Bölümü Bu dersin sunumları, Mining of Massive Datasets, Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Stanford University, 2011. kitabı kullanılarak hazırlanmıştır. Konular tanımı 2 1

PageRank Google, spammer ları elimine edebilen ilk arama motorudur. Spammer lar arama motoru sonuçlarını kullanışsız hale getirir. Google, Web sayfalarının önemini değerlendiren PageRank algoritmasını geliştirmiştir. Spammer lar ise PageRank algoritmasını manipüle etmek için link spam yöntemini kullanmaya başlamıştır. Google, spammer ların saldırılarını engellemek için TrustRank yöntemini geliştirmiştir. 3 Konular tanımı 4 2

Term spam Google dan önceki arama motorları crawl ettikleri Web sayfasında yer alan terimleri (boşluk hariç kelime veya string) inverted index kullanarak listelemekteydi. Bir search query alındığında, inverted index ten ilgili sayfalar alınarak hesaplanan rank değerine göre sunulmaktaydı. Bir terimin sayfa başlığında olması veya sayfada sık geçmesi sorguya ilgililik düzeyini artırmaktaydı. Etik olmayan yöntemlerle ilk arama motorlarını kolaylıkla yanıltmak mümkündü. Örn.: Sık arama yapılan kelimeler background rengiyle çok sayıda yazılarak rank değeri yükseltilebilmekteydi. Bir sayfanın herhangi bir konuyla ilgili olduğuna yönelik arama motorlarının yanıltılması için kullanılan tekniklere term spam denir. 5 Term spam, term spam ile mücadele için iki yöntem geliştirmiştir: Web kullanıcılarını simüle eder. Rastgele bir sayfadan başlayıp; outlink leri rastgele seçen kullanıcıların (random surfer) hangi sayfalara gideceğini iterative bir şekilde belirler. Çok gezilen sayfalar diğerlerine göre daha önemli kabul edilir. Google gelen bir sorgu için cevap oluştururken önemli sayfaları tercih eder. Bir sayfa içeriğine sadece o sayfada yer alan terimlere göre karar verilmez. O sayfaya link veren sayfalarda linkin içerisinde veya yakınında bulunan terimlere göre önemine karar verilir. Spammer kendi sayfasında term spam yapabilir, ancak kendi sayfasına link veren diğer sayfalarda kolaylık term spam yapamaz. 6 3

Term spam Google, bir Web sayfasının kendisi için ifade ettiğini değil, diğer sayfaların onun için ifade ettiğini dikkate almaktadır. Spammer kendi sayfasına çok sayıda link veren sayfa oluşturabilir. Ancak, PageRank algoritmasında bu sayfaların da önemi düşük olacaktır. Her kullanıcı Web üzerinde gezinirken sayfalardaki linkleri seçerek bir oylama yapar. Web sayfasına faydalı olduğu düşünülen linkler konulur. Faydalı olmayacağı düşünülen linkler genellikle yer almaz. Kullanıcılar faydalı sayfaları faydasız sayfalara göre daha çok ziyaret ederler. 7 Konular tanımı 8 4

PageRank tanımı, Web teki her sayfaya reel sayı atayan bir fonksiyondur. Atanan değeri yüksek olan sayfa PageRank için daha önemlidir. Web bir graf olarak düşünülebilir. Sayfalar node, linkler ise kenarlardır. Bir random surfer (rastgele seçim yapan kullanıcı) A düğümünde ise, B, C ve D düğümlerini seçme olasılığı 1/3 tür. A da kalma olasılığı 0 dır. 9 PageRank tanımı Random surfer ın bir sonraki adımı için transition matrix (M) tanımlanabilir. m ij = 1/k ise, j. sayfada k tane outlink vardır ve bir tanesi i.sayfaya verilmiştir. m ij = 0 ise link verilmemiştir. M matrisinin her sütunundaki değerler toplamı 1 e eşittir (stokastik matris). Herhangi bir sütundaki olasılık dağılımı PageRank fonksiyonudur. 10 5

PageRank tanımı Bir random surfer başlangıçta Web teki n sayfadan birisinde başlasın. Başlangıç vektörü v 0 her eleman için 1/n değerine sahiptir. M, Web teki transition matrix (geçiş matrisi) olsun. Bir adım sonraki olasılık dağılımı M v 0 olur. İki adım sonra M(Mv 0 )=M 2 v 0 olur. Random surfer ın sonraki adımda i node una geçme olasılığı x i aşağıdaki gibi hesaplanır: x i mi v j j j v j, random surfer ın önceki adımdan node j ye geçme olasılığıdır. m ij, random surfer ın j node unda iken i node una geçme olasılığıdır. 11 PageRank tanımı Aşağıdaki şartlar altında v dağılımının limit değeri v = M v eşitliğini sağlar: Graf strongly connected yapıdadır (herhangi bir node a herhangi bir node dan ulaşılabilir.). Dead end yoktur (outlink olmayan sayfa yoktur.). v vektörüne M matrisinin principle eigenvector ü denir. v vektörü random surfer ın uzun bir süre sonunda hangi sayfada olacağını gösterir. Başlangıç vektörü v 0 kullanılarak v vektörü belirli bir iterasyon sonrası için hesaplanır. Çok küçük değişim oluncaya kadar iterasyon devam ettirilir. Web için 50-75 arasında iterasyon yeterlidir. 12 6

PageRank tanımı Örnek M transition matrisi ve v 0 başlangıç vektörü. 1/ 4 1/ 4 v 0 1/ 4 1/ 4 Eigenvector değerlerinin iterasyonlarla değişimi aşağıdaki gibi olur. İlk satır değeri A düğümüne aittir ve diğerlerinin 3/2 katı çıkmıştır. 13 Konular tanımı 14 7

Web in yapısı 15 Web in yapısı Web te çok sayıda strongly connected component (SCC) vardır (dead end sayfa yoktur). SCC olmayan büyük bir kısım vardır. In-component: Linkler takip edilerek SCC ye ulaşan sayfaları içerir. Ancak, SCC lerden bu elemanlara ulaşılamaz. Out-component: Linkler takip edilerek SCC den ulaşılabilen sayfaları içerir. Ancak, bunlardan SCC ye ulaşılamaz. Tendrils out: In-component lerden ulaşılan sayfalardır. Bunlardan incomponent lere ulaşılamaz. Tendrils in: Out-component lere ulaşılan sayfalardır. Outcomponent lerden bunlara ulaşılamaz. 16 8

Web in yapısı Tubes: In-component lerden ulaşılan ve out-component lere ulaşan sayfalardır. SCC den bunlara veya bunlardan SCC ye ulaşılamaz. Isolated components: Kendisine ulaşılamayan ve kendisinden diğerlerine ulaşılamayan elemanlardır. Aşağıdaki iki sorundan kaçınılması gereklidir: : Dead end sayfalara ulaşan surfer başka sayfaya geçemez. Bu sayfalara ulaşan sayfalar için PageRank değeri elde edilemez. : İçerisinde outlink bulunan ancak başka sayfalara linke sahip olmayan bir grup sayfadır. Bu iki problemin çözümü için taxation metodu kullanılabilir. Taxation metodunda, random surfer ın bir sayfadan ayılma olasılığı sonludur ve yeni bir surfer herhangi bir sayfadan başlayabilir. 17 Konular tanımı 18 9

Dead end sayfalar İçerisinde hiç outlink olmayan sayfalar dead end sayfalar olarak adlandırılır. M matrisi stokastik olmaz (bazı sütunların toplamı 0 a eşittir.). Bir sütünun değerleri toplamı en çok 1 olan matris substokastik olarak adlandırılır. M i v artan üsler için hesaplandığında elde edilen vector ün bazı değerleri veya tüm değerleri 0 a yaklaşır. Web sayfalarının göreceli önemine yönelik bilgi elde edilemez. 19 Örnek Dead end sayfalar C (dead end) sayfasına ulaşan random surfer sonraki adımda görünmez. M substokastik bir matristir (Burada C sütunu toplamı 0 dır.). Başlangıçtan itibaren hesaplanan vektör değerleri 0 a doğru gider. Random surfer ın iterasyon arttıkça herhangi bir yerde olma olasılığı 0 olur. 20 10

Dead end sayfalar Dead end sayfa probleminin çözümünde iki yaklaşım kullanılabilir. Birincisinde, graftan dead end sayfalar atılır. Bunun sonucunda çok sayıda yeni dead end sayfa oluşabilir. Strongly connected component lere ulaşıncaya kadar recursive olarak hepsi atılır. Recursive silme işleminin sonucunda out-component lerden, tendril lerden ve tubes lerden bir kısmı da silinebilir. SCC, in-component ve isolated component ler kalır. İkincisinde, random surfer ın izlediği süreç değiştirilir. Random surfer ın her durumda Web üzerinde hareket ettiği (bir sayfadan her durumda ayrıldığı) varsayılır (taxation metodu). Grafta yer almayan sayfaların PageRank değeri öncüllerinin değerlerinin toplamı ile hesaplanır. Graftaki öncül sayfaların değeri, silinen sayfaların adedine bölünür. 21 Dead end sayfalar Örnek E sayfası C sayfasının ardılıdır ve dead end tir. E sayfası silindiğinde C sayfası dead end olur. Graf A, B ve D sayfalarından oluşur. Geçiş matrisi aşağıdaki gibidir. değerleri A = 2/9, B = 4/9 ve D = 3/9. C = 1/3*A+1/2*D =1/3*2/9+1/2*3/9 = 13/54 ve E = C = 13/54 olur. 22 11

Konular tanımı 23 Bir spider trap bir grup node tur. Dead end değillerdir ancak kendilerinden dışarıya doğru bağlantıları yoktur. İterasyonun sonunda PageRank değerinin tamamını kendilerine atarlar. Örnek Spider traps C bir node dan oluşan spider trap tir. Random surfer C sayfasından hiçbir zaman ayrılamaz. 24 12

Spider traps Random surfer ın outlink kullanmadan rastgele bir sayfaya geçişi için küçük bir olasılık tanımlanır. Yeni PageRank değeri aşağıdaki gibi hesaplanır. 0.8-0.9 aralığında bir sabit, e tüm değerleri 1 olan vektör, n ise Web teki node sayısıdır. M v, random surfer ın out-link ler kullanılarak olasılığında geçişini belirler. (1 - )e / n ise, (1 - ) olasılığında yeni surfer ın rastgele bir sayfaya geçişini belirler. 25 Örnek Spider traps = 0.8, n = 4 26 13

Konular tanımı 27 Arama motorunda PageRank kullanımı Her arama motoru kendine özgü ve gizlenmiş bir formül ile sayfa sıralamasını yapmaktadır. Google Web sayfalarının sıralaması için 250 den fazla farklı özelliği kullandığını belirtmektedir. Bir sayfanın sonuç listesinde yer alabilmesi için sorgudaki bir veya daha fazla kelimeyi içermesi zorunludur. Genellikle tüm kelimeleri içermeyen sayfaların ilk 10 sırada görülme şansı çok küçüktür. Sorgudaki aranan kelimelerin sayfaların başlığında veya linklerde (kendi kendisine linkler hariç) olması daha önemlidir. 28 14

Konular tanımı 29 Link Spam algoritmasının geliştirilmesiyle term spam yöntemleri etkisini kaybetmiştir. Spammer lar ise PageRank algoritmasını yanıltmaya yönelik yeni yöntemler geliştirmiştir. algoritması için bir sayfanın öneminin yapay bir şekilde artırılması amacıyla kullanılan yöntemlere link spam denir. Link spam yöntemlerinin etkisiz olması için TrustRank ve spam mass ölçümü gibi yöntemler geliştirilmiştir. 30 15

Konular tanımı 31 Link spam yapısı Bir sayfanın veya bir grup sayfanın PageRank değerini artırmak için oluşturulan sayfa topluluğuna spam farm denir. Spammer açısından Web üç kısma ayrılır: Erişilemez sayfalar: Spammer bu sayfaları etkileyemez. Web in büyük bölümü bu kısımdadır. Erişilebilir sayfalar: Spammer tarafından doğrudan kontrol edilmeyen, ancak spammer ın etkileyebildiği sayfalar. Sahip olduğu sayfalar: Spammer ın sahip olduğu ve kontrol ettiği sayfalar. Spam farm spammer ın sahip olduğu sayfalardan oluşur. Arama motorları tarafından crawl yapılsa bile spam farm sayfalar kullanıcı için faydasızdır. 32 16

Link spam yapısı Birtakım yöntemlerle erişilebilir sayfalardan spam farm sayfalara link verilir. 33 Link spam yapısı Dışarıdan kendisine link verilmemesi halinde spam farm içindeki Web sayfalarını arama motorları crawl yapamaz. Günümüzde çok sayıda blog ve haber sitesi İnternet kullanıcılarını yorum post etmeleri için davet etmektedir. Spammer lar bu tür sitelere spam farm sayfaların linkini içeren çok sayıda yorum mesajı post etmektedirler ("I agree. Please see my article at www.myspamfarm.com"). Spammer PageRank değerini yükseltmek istediği sayfadan spam farm sayfalara link verir. Spam farm sayfaların tamamı da sadece PageRank değeri yükseltilmek istenen sayfaya link verir. 34 17

Konular tanımı 35 Spam farm analizi taxation parametresi = 0.85 olarak belirlenmiş olsun. değeri sayfanın bir sonraki iterasyonda ardından gelecek sayfalar için hesaplanan PageRank değerini etkiler. Web te toplam n sayfa olsun. Spam farm içerisinde m adet destekleyici sayfa olsun. t ise bir tane hedef sayfa olsun. x değeri, p adet erişilebilir sayfanın t sayfasına link vererek sağlayacağı toplam PageRank değeri olsun. y değeri, t sayfasının bilinemeyen PageRank değeri olsun. 36 18

Spam farm analizi Her bir destekleyici sayfa için PageRank değeri aşağıdaki gibi hesaplanır. İlk terim t sayfasının diğer sayfalara sağlayacağı değeri göstermektedir. t sayfasından outlinki olan sayfalara y dağıtılır. y/m ile sonraki m adet sayfaya eşit olarak dağıtılır. İkinci terimde ise PageRank in (1- ) oranı Web teki tüm sayfalara dağıtılır. Hedef t sayfasının PageRank değeri y, üç kaynaktan elde edilir: x, dışarıdan t sayfasına linki olan sayfalardan gelen PageRank değeri. Destek sayfalarından t sayfasına gelen PageRank değeri. Web in tamamında (1- )/n ile t sayfasına düşen PageRank değeri. Çok küçük bir değerdir, analizi kolaylaştırmak için ihmal edilebilir. 37 Link spam analizi İlk iki kaynaktan t sayfasına gelen toplam PageRank değeri aşağıdaki gibi yazılabilir: Örnek = 0,85 olursa 1/(1-2 ) = 3,6 olur. c = /(1+ ) = 0,46 olur. Spam farm dışarıdan gelen PageRank değerini 3,6 kat (%360) yükseltmiştir. Web in içindeki oranına göre (m/n) (yapı içerisindeki sayfa sayısının tüm sayfa sayısına oranı) PageRank değeri %46 elde edilir. 38 19

Link spam analizi Arama motorlarının link spam i algılayıp elimine etmesi gereklidir. Arama motorları tarafından bir sayfanın çok sayfaya link verdiği ve bu sayfaların da sadece kendisine link verdiği spam farm aranır. Bu yapıya uygun sayfalar indeksten çıkartılır. Spammer lar farklı yapılar geliştirerek PageRank üzerinde aynı etkiyi elde etmeye çalışmışlardır. Spam farm sayfaların algılanıp elimine edilmesi için iki farklı yöntem geliştirilmiştir: : Spam sayfaların skorunu azaltır. : Spam sayfaları tanımlayacak bir hesaplama yapar ve tümüyle elimine eder veya PageRank değerini önemli oranda azaltır. 39 Konular tanımı 40 20

TrustRank spam olmadığı düşünülen sayfa kümesine (topic) sahiptir. Bir spam sayfa güvenilir sayfaya kolaylıkla link verebilir, ancak güvenilir sayfa spam sayfaya link vermez. Spammer ların link verebildiği siteler blog siteleri ve diğer benzeri sitelerdir. Bu durumda, yüksek güvenilirlikli bir blog sitesi veya kullanıcılarından yorum alan saygın bir haber sitesi de güvenilir kabul edilmez!!! Spammer lar yorum olarak gönderdikleri metin içeriğine kendi sayfalarının linklerini yerleştirir. 41 TrustRank için güvenilir sayfalardan oluşan bir küme oluşturulması gereklidir. Bu sayfalar manuel olarak belirlenebilir. En yüksek PageRank değerine sahip olan sayfalar alınabilir. Link spam bir sayfanın PageRank değerini yükseltir, ancak güvenilir sayfalar düzeyine yaklaştıramaz. Spammer ların kontrol etmelerinin zor olduğu bir domain alınır (.edu,.mil,.gov). Güvenilir sayfalar genellikle ABD deki sitelerden oluşmaktadır. Sayfaların iyi bir dağılım için farklı ülkelerden de seçilmesi daha uygun olur. 42 21

Konular tanımı 43 Spam mass yönteminde, her sayfanın PageRank değerinin bir kısmının spam den geldiği kabul edilir. Bir p sayfasının PageRank değeri r ve TrustRank değeri t olsun. p sayfasının spam mass değeri aşağıdaki gibi hesaplanır. p ( r t) / r Negatif veya küçük pozitif spam mass değerleri sayfanın muhtemelen spam olmadığını gösterir. 1 e yakın spam mass değerleri, sayfanın muhtemelen spam olduğunu gösterir. Yapılan çalışmalar, elimine edilen linklerin büyük bölümünün spam farm olduğunu göstermiştir. 44 22

Spam mass Örnek Graf için PageRank, TrustRank ve Spam Mass değerlerini hesaplayalım. B ve D güvenilir sayfalar olsun. Tablodaki değerler hesaplanmış olsun. B ve D, spam mass değerleri negatif olduğundan spam değildir. A ve C için PageRank değeri TrustRank değerlerinden büyük olduğundan spam mass değerleri hesaplanır. A ( 3/ 9 54 / 210) /(3/ 9) 0,229 değeri 0 a yakın olduğundan muhtemelen spam değildir. 45 Konular tanımı 46 23

Hub ve Otorite Sayfalar Hub ve Otorite yaklaşımı PageRank algoritmasından kısa süre sonra geliştirilmiştir. Hub ve otorite algoritması kısaca HITS (Hyperlink-Induced Topic Search) olarak da adlandırılır., PageRank algoritması gibi iteratif vektör ve matris hesaplamasını kullanır., PageRank algoritmasındaki kullanıcı sorgusundan önce yapılan önişlemleri yapmaz., kullanıcı sorgusu geldiğinde sadece gelen sorgu için rank hesaplanır. Ask arama motoru HITS algoritmasını kullanmaktadır. 47 Konular tanımı 48 24

HITS algoritması iki tür önemli sayfa tanımlar: Belirli bir konu hakkında bilgi sağlayan sayfalar (otorite sayfalar). Bir konu hakkında bilgi alınabilecek sayfayı gösteren sayfalar (hub sayfalar). Bir bölümdeki derslerin listesini bulunduran sayfa hub sayfadır. Dersler hakkında bilgi içeren sayfalar ise otorite sayfalardır. algoritmasında, eğer bir sayfaya önemli sayfalar link vermişse o sayfa önemlidir. nda, bir sayfa önemli hub sayfadır eğer önemli otorite sayfalara link vermişse. nda, bir sayfa önemli otorite sayfadır eğer önemli hub sayfalar bu sayfaya link vermişse. 49 Konular tanımı 50 25

Hub ve otorite tanımı Web sayfalarının ne kadar iyi hub sayfa olduğunu veya ne kadar iyi otorite sayfa olduğunu gösteren iki skor tanımlanır. Sayfaların tamamı h (hub) ve a (otorite) vektörleri ile ifade edilebilir. İki vektörde i.değer, i.sayfanın hub ve otorite değerini gösterir. Bir sayfanın hub değerini tahmin etmek için, ardından gelen sayfaların otorite değerleri eklenir. Bir sayfanın otorite değerini tahmin etmek için, önünde olan sayfaların hub değeri eklenir. İteratif şekilde toplanan hub ve otorite değerleri her adımdan sonra maksimum 1 olacak şekilde ölçeklenir. h ve a vektörlerinin hesaplanması için link matrisi oluşturulur. 51 Hub ve otorite tanımı n adet sayfa için L link matrisi n n boyutunda kare matristir. L ij = 1 ise i.sayfadan j.sayfaya link vardır, L ij = 0 ise link yoktur. L T ise L link matrisinin transpozudur. L T ij = 1 ise j.sayfadan i.sayfaya link vardır, L T ij = 0 ise link yoktur. L T matrisi PageRank algoritmasındaki M geçiş matrisine benzer. L T nin 1 olduğu yerde M matrisi (1/outlink_sayısı) değerine eşittir. Dead end ve spider traps sayfalar HITS algoritmasının anlamlı çift vektörü bulmasına engel olmaz. Taxation ve graf üzerinde preprocess gerekmez. 52 26

Örnek Hub ve otorite tanımı 53 Hub ve otorite tanımı Bir sayfanın hub değeri ardındaki otorite sayfaların değeriyle gösterilir. h = La Burada ölçeklendirme sabitidir. Bir sayfanın otorite değeri önündeki hub sayfaların değeriyle gösterilir. a = L T h Burada ölçeklendirme sabitidir. h ve a birbirinden bağımsız şekilde hesaplanabilir. h = LL T h a = L T La h vektörünün tüm değerleri 1 alınarak başlanır. a = L T h ve h = La için hesaplama yapılır ardından ölçekleme yapılır. 54 27

Örnek Hub ve otorite tanımı nın iki iterasyonu için hesaplama. A en büyük hub tır ve değeri 1 dır. C nin hub değeri E ye bağlıdır. B ve C önemli hub tır. E nin hub değeri 0 dır. 55 Ödev Topic-sensitive PageRank hakkında bir araştırma ödevi hazırlayınız. 56 28