Bilgi Erişim Performans Ölçüleri



Benzer belgeler
Bilgi Erişim Sistemleri II

Bilgi Erişim Sorunu. Yaşar Tonta. Hacettepe Üniversitesi yunus.hacettepe.edu.tr/~tonta/ BBY163 Bilgi Yönetimi Kavramları

DİZİN. Not: Koyu harfle yazılan sayfalar ilgili terimin yoğun olarak geçtiği sayfaları göstermektedir.

Bilgi Erişim Sistemleri

sayıda soru için hiçbir ilgili belgeye erişemediklerinden soru başına erişilen ortalama ilgili belge sayıları düşüktür (1,5). Arama motorlarının

Türkçe Arama Motorlarında Performans Değerlendirme

Web Madenciliği (Web Mining)

VERİ MADENCİLİĞİ Metin Madenciliği

HACETTEPE ÜNİVERSİTESİ BİLGİ VE BELGE YÖNETİMİ BÖLÜMÜ TÜRKÇE İKTİSAT BÖLÜMÜ İÇİN ÇİFT ANADAL DERS PROGRAMI

LSI Keywords İle Sitenizin Sıralamasını Ve Trafiğini Arttırın

TS EN ISO EŞLEŞTİRME LİSTESİ

Seo Eğitimi (300 Sattlik Eğitim) Seo. Genel Amaçları. Seo da Kullanılan Terimler. Nedir? Nasıl Çalışır? Nasıl Olmalıdır?

2 BİLGİ ERİŞİM SİSTEMLERİ

Web Madenciliği (Web Mining)

BMT 202 Web Tasarımı Bahar Dönemi. Yük. Müh. Köksal GÜNDOĞDU 1

Veritabanı Yönetimi Bilgisayarların. Keşfi Hedefler. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi

Mikro Ayarları. Mikro Programının kurulu olduğu veritabanı ve web servisi için bağlantı ayarlarının yapıldığı menüdür.

TS EN ISO KONTROL LİSTESİ ŞABLONU

Semantik Bilgi Yönetimi

Mesleki Bir Tartışma Listesi Olarak KUTUP-L nin İçerik Analizi

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

Web Madenciliği (Web Mining)

Web Sayfasında Google Analitik Kullanımı ve Kullanıcı Davranışlarının Belirlenmesi: İstanbul Ticaret Üniversitesi Kütüphane Web Sayfası.

Vega Ayarları. Vega Programının kurulu olduğu veritabanı ve web servisi için bağlantı ayarlarının yapıldığı menüdür.

Bilimsel ve Teknik Dokümantasyon. Yrd. Doç.Dr. Özlem Bayram

Semantik Ağ ve Üst Veri Sistemleri İçin Yeni Nesil Veri Tabanı Yönetim Modeli: NoSQL. R. Orçun Madran Atılım Üniversitesi.

TCMB Deneyim Raporu. Kurumsal Java Uygulama Platformu. Sacit Uluırmak. Türkiye Cumhuriyet Merkez Bankası Sistem Araştırma ve Planlama Müdürlüğü

Açık Erişim ve Kurumsal Arşivler

Metin Sınıflandırma. Akış

ĐSTEMCĐ SUNUCU SĐSTEMLER DERSĐ FĐNAL ÇALIŞMASI SORULAR YANITLAR

Beyhan KARPUZ, Uzman Kütüphaneci Karadeniz Teknik Üniversitesi 2016

Tam metin ve Doktora Tezleri filitreleri Basit Arama seçeneğinde görüntülenmektedir.

Deneysel Yöntem. Yaşar Tonta H.Ü. BBY yunus.hacettepe.edu.tr/~tonta/courses/fall2007/sb5002/ SB5002 SLIDE 1

Script. Statik Sayfa. Dinamik Sayfa. Dinamik Web Sitelerinin Avantajları. İçerik Yönetim Sistemi. PHP Nedir? Avantajları.

Bilimsel İletişim ve Bibliyometri

Bütünleşik Elektronik Bilgi Hizmetleri

Web Uygulama Güvenliği Kontrol Listesi 2010

Sizin başarınız için çalışıyorlar

Dersin Konusu ve Amaçları: Ders P lanı: Bölüm 1: Bilgi Teknolojilerinde Temel Kavramlar

Arama Sonuçlarında Üst Sıralarda Olmak. Temel SEO Çalışması

BBY 163: Bilgi Yönetimi Kavramları

SEO ALANLARINA YAZILMASI GEREKENLER

TTB-HUV SUNUMU. Dr. RAİF KAYA

Algoritmalar. Arama Problemi ve Analizi. Bahar 2016 Doç. Dr. Suat Özdemir 1

ÇEVİRİ İŞLETMELERİ DERNEĞİ

Google Web Toolkit ile Öğretim Elemanı Otomasyon Sistemi

2 SEO YOL HARITASI 21 Seo Çalışmasının Aşamaları 21 Ön Analiz Ve Araştırma 21 Planlama 23 Çalışmanın Uygunlanması Ve İzlenmesi 24

Veritabanı Uygulamaları Tasarımı

3. sınıf. Bilgisayarla kataloglamanın doğuşu gelişimi ve bugünkü durum ele alınmaktadır. Bu derste

Course Content for Freshmen

Tarih Saat Modül Adı Öğretim Üyesi. 01/05/2018 Salı 3 Bilgisayar Bilimlerine Giriş Doç. Dr. Hacer Karacan

ESİS Projesi. Kaynaklar Bakanlığı

2 Ders Kodu: VPT Ders Türü: Seçmeli 4 Ders Seviyesi Doktora

Veritabanı Yönetim Sistemleri (Veritabanı Kavramı) Veri Modelleri

Natura 2000 VERI TABANı (GÖREV 2)

2-Veritabanı Yönetim Sistemleri/ Temel Kavramlar

Bilimsel İletişim ve Bibliyometri

INTERNET NEDİR? INTERNET İN TARİHÇESİ WEB SAYFALARININ UZANTILARI

Website Yorumu seoniva.com

İÇİNDEKİLER 1. GİRİŞ...

Google Hacking. Gelişmiş Google Operatörleri

BBY 163: Bilgi Yönetimi Kavramları

duralbend.com Web Sayfasının Seo Analiz Raporu


ISI Web of Knowledge EndNote Web Copyright 2007 Thomson Corporation

Veritabanı Dersi. Teoriden Pratiğe. Çağıltay N.E., Tokdemir G. Veritabanı Sistemleri Dersi -Bölüm XXV: Web'den Erişim Çağıltay, N., Tokdemir, G.

... ROBOTİK VE KODLAMA EĞİTİMİ ÇERÇEVESİNDE ÖĞRETİM YILI BİLİŞİM TEKNOLOJİLERİ DERSİ ÜNİTELENDİRİLMİŞ YILLIK DERS PLANI

Hacettepe Üniversitesinde Bilgi ve Belge Yönetimi Eğitimi

BİH 605 Bilgi Teknolojisi Bahar Dönemi 2015

Cochrane Library. Trusted evidence. Informed decisions. Better health.

Yapısal Olmayan Verinin Potansiyelini Açığa Çıkarın

İçindekiler vii Yazarların Ön Sözü xiii Çevirenin Ön Sözü xiv Teşekkürler xvi Semboller Listesi xvii. Ölçme, İstatistik ve Araştırma...

BÖLÜM 14 BİLGİSAYAR UYGULAMALARI - 3 (ORTALAMALARIN KARŞILAŞTIRILMASI)

2015/2016 Bahar Yarıyılı Bitirme Çalışması Konuları. (Doç.Dr. M. Kemal GÜLLÜ)

DERS BİLGİ FORMU BİLGİ VE İLETİŞİM TEKNOLOJİSİ. ELEKTRİK VE ENERJİ I Türkçe Zorunlu Ders Meslek Dersi Seçmeli Ders. Haftalık Ders Saati

BLG 1306 Temel Bilgisayar Programlama

2016 YILI MERKEZ KÜTÜPHANE AMAÇ VE HEDEFLERİMİZ

AMP DOĞRUDAN TEMİN PROGRAMI TEKNİK ÖZELLİKLERİ

Sisteme giriş yapıldığında ana sayfa üzerinde işlem menüleri, Hızlı erişim butonları ve mail gönderim istatistikleri yer alır.

Zeki Gülen Marmara Üniversitesi Sosyal Bilimler Enstitüsü, Gazetecilik Ana Bilim Dalı, Bilişim

BİR VERİTABANI ÇALIŞMASI: BAŞKENT ÜNİVERSİTESİ HUKUK VERİTABANI

YÖNETİM BİLİMLERİ DERGİSİNE MAKALE GÖNDERECEK YAZARLARIN DİKKAT EDECEĞİ HUSUSLAR

SEO Arama Motoru Optimizasyonu

Anlamsal Bilgi Yönetiminde Üst Veri Sistemlerinin ve Ontolojilerin Kullanımı




Otomatik Kontrol. Kapalı Çevrim Kontrol Sistemin Genel Gereklilikleri. Hazırlayan: Dr. Nurdan Bilgin

ÇEVRİM İÇİ VERİ TABANLARININ SEÇİMİ VE KULLANIMINDA KÜTÜPHANECİLERİN ROLÜ

«Dil Seçeneği» alanı. «Sisteme Giriş» alanı

VERİ KAYNAKLARI. Bilgi sisteminin öğelerinden biride veri

Web Madenciliği (Web Mining)

Aktarımı Çalıştırmak/Geri Almak 146 Alan Seçenekleri 148 Veri Tabanı Şeması 150 Veri Tabanı ile İlgili Bazı Rake Görevleri 162 Modeller 164

Fortune 100 Türkiye Firmalarının SEO İncelemesi

Fiziksel Veritabanı Modelleme

Hitit R5 Ayarları. Hitit R5 Programının kurulu olduğu veritabanı ve web servisi için bağlantı ayarlarının yapıldığı menüdür.

Kaspersky Administration Kit 8.0

Türkçe arama motorları en sık aranan sözcüklerin ne kadarını kapsamaktadır? Arama motorlarının kapsama oranları arasında fark var mıdır?

Coslat Monitor (Raporcu)

Kamu İç Denetçileri Eğitim Programı

Transkript:

Bilgi Erişim Performans Ölçüleri Yaşar Tonta Hacettepe Üniversitesi tonta@hacettepe.edu.tr yunus.hacettepe.edu.tr/~tonta/ DOK324/BBY220 Bilgi Erişim İlkeleri DOK 220 Bahar 2005 2005.03.01 - SLAYT 1

Belge Erişim Sisteminin Mantıksal Düzenlemesi Belgeler Kullanıcılar Dizinleme Gömü - Sözlük Sorgu formülasyonu Dizin tutanakları Erişim kuralı Formel sorgu cümlesi Kaynak: Maron, 1984 DOK 220 Bahar 2005 2005.03.01 - SLAYT 2

İdeal Bilgi Erişim Sistemi İlgili belgelerin tümüne ve salt ilgili belgelere erişim sağlamalı İlgililik kavramı Nesnel ilgililik Öznel ilgililik Birbirine benzeyen bilgileri bir araya getirmek, benzemeyenleri ayırmak DOK 220 Bahar 2005 2005.03.01 - SLAYT 3

İlglilik Derecesi İkili ilgililik (İlgili/İlgisiz) 0-1 ölçeğinde ilgililik (veya 0-1000 ölçeğinde) DOK 220 Bahar 2005 2005.03.01 - SLAYT 4

Hakkındalık Bir belgenin X konusunda olduğuna nasıl karar veririz? Dizin terimleri/konu başlıkları bir belgenin hangi konu(lar) hakkında olduğunu belirtir Dizin terimleri vermek genellikle ikili bir karardır DOK 220 Bahar 2005 2005.03.01 - SLAYT 5

Ağırlıklandırma Belgelerde geçen terimler Arama sorularında geçen terimler Terimlere negatif ağırlık verilebilir mi? DOK 220 Bahar 2005 2005.03.01 - SLAYT 6

Erişim Kuralları Boole mantığı Vektör uzayı modeli Set kuramına dayanıyor. Boole işleçleri VE, VEYA, DEĞİL- kullanılıyor σ(d,q) = (t k xq k ) / (t k ) 2 x (q k ) 2 t k = k teriminin belgedeki değeri q k = k teriminin sorgudaki değeri Olasılık modeli P (ilgili) = n / N P( ilgili) = 1 P(ilgili) = N n / N n = ilgili belge sayısı N = toplam belge sayısı İstatistiksel ağırlıklandırma (tf*idf) Ağırlıklandırma ilkesi: İlgili belgelerde sık AMA derlemin tamamında seyrek geçen terimleri daha yüksek ağırlıklandır DOK 220 Bahar 2005 2005.03.01 - SLAYT 7

Bilgi Erişim Sistemleri Mükemmel Değil! Bilgi Erişim Sistemleri Mükemmel Değil! N y İLGİLİ v x u ERİŞİLEN v tipi hatalar u tipi hatalar DOK 220 Bahar 2005 2005.03.01 - SLAYT 8

Bilgi Erişim Performansı İLGİLİ İLGİSİZ N ERİŞİLEN ERİŞİLE -MEYEN x u n 1 v n 2 y İLGİLİ v x u y ERİŞİLEN Duyarlık = x / n 1 Erişilen ilgili belgelerin erişilen tüm belgelere oranı Anma = x / n2 Erişilen ilgili belgelerin tüm ilgili belgelere oranı Posa = u / u + y Erişilen ilgisiz belgelerin tüm ilgisiz belgelere oranı Genellik = n2 / N Tüm dermedeki ilgili belgelerin oranı DOK 220 Bahar 2005 2005.03.01 - SLAYT 9

Diğer Performans Ölçümleri Kapsama Oranı: R k / U Gerçekte erişilen ilgili belgelerin kullanıcının ilgili olduğunu önceden bildiği belgelere oranı Yenilik Oranı: R u / R u + R k Gerçekte erişilen ilgili belgelerin kullanıcının ilgili olduğunu önceden bilmediği belgelere oranı U: kullanıcının ilgili olduğunu önceden bildiği belgeler seti R k : Erişilen ve kullanıcının önceden ilgili olduğunu bildiği belgelerin sayısı R u : Erişilen ve kullanıcının önceden ilgili olduğunu bilmediği belgelerin sayısı DOK 220 Bahar 2005 2005.03.01 - SLAYT 10

Normalleştirilmiş Sıralama Sıralama 1 2 3 4 5 6 7 8 9 Sıra1 + + + + + - - - - Sıra2 - - - - + + + + + Sıra3 + + + - - - + - + Duyarlık üç arama için de 5/9 Hangisini tercih edersiniz? DOK 220 Bahar 2005 2005.03.01 - SLAYT 11

Bilgi Erişim Sorunları Belge nedir ve boyu nasıl hesaplanır? Bu belge ne hakkındadır? Bu sorgu ne hakkındadır? Bu sorgu ve belge aynı şey hakkında mıdır? Bu belge verilen sorgu ile ilgili midir? Bu belge sisteme sunulan bilgi ihtiyacı ile ilgili midir? Bu belge ne kadar ilgilidir? Bu veritabanı verilen sorgu ile ilgili midir? Bu resim ne hakkındadır? DOK 220 Bahar 2005 2005.03.01 - SLAYT 12

Bilgi Erişime İşlevsel Bakış DOK 220 Bahar 2005 2005.03.01 - SLAYT 13

Belge İşleme ve Gösterimi Ön işlem: Noktalama işaretlerinin kaldırılması ve daha sonra durma listesinde bulunan kelimelerin belgeden ayıklanması. Gövdeleme: bir kelimeden yapım eklerinin korunup çekim eklerinin atılması. Belge Gösterimi için içerik terimleri ve onların göreceli ağırlıkları. Bir terimin ağırlığı onun belge içindeki sıklığı ile doğru, fakat derlem sıklığı ile ters orantılıdır. DOK 220 Bahar 2005 2005.03.01 - SLAYT 14

Dizinler Dizin ne içermelidir? Veritabanı sistemi asıl ve ikincil anahtarları dizinler. BE Problemi: anahtarları kestirebilmek? Çözüm: İçerik terimleri. Zipf Kanunu: Terimlerin dağılımı ve sıraları arasındaki ilişki sabit bir değere yakınsar. İçerik terimlerin göreceliği ağırlığı ne olmalıdır? Sıklık Modeli: Terim sıklığı? Belge sıklığı? Ayrımsama Modeli: belge uzayının yoğunluğunu azaltan terim iyi bir terimdir. Dil modeli: Belgenin söz konusu terimi üretme olasılığı ile derlemin üretme olasılığı arasındaki doğrusal ilişki ağırlığı belirler. DOK 220 Bahar 2005 2005.03.01 - SLAYT 15

Zipf Kanunu DOK 220 Bahar 2005 2005.03.01 - SLAYT 16

Ayrımsama Modeli DOK 220 Bahar 2005 2005.03.01 - SLAYT 17

Sorgu İfadesi 2 temel sorgu dili türü Boole, yapılı Serbest metin Birçok sistem birisini ya da her ikisini birden desteklemektedir. Sorgu ifadesinin oluşturulmasında kullanıcı arayüzü önemlidir. Sorgu ifadesinin oluşturulması için araçlar Sorgu işleme ve ağırlıklandırma Sorgu genişletme Sözlükler ve eşanlamlı sözlük İlgililik geribildirimi DOK 220 Bahar 2005 2005.03.01 - SLAYT 18

Sorgu İşleme Sorgu işleme adımları otomatik belge dizinlemeninkilere çok benzemektedir. Durma Kelime Listesi farklı olabilir Metin daha az gramatik ve kısa olabilir Kullanıcı etkileşimi mümkün ve istenebilir Sorgu-tabanlı gövdeleme ve durma kelimeleri Diğer olası adımlar Tamlamaların tanınması Negatiflerin tanınması İlgili kelimelerle sorguların genişletmesi DOK 220 Bahar 2005 2005.03.01 - SLAYT 19

Erişim Modelleri Boole model kesin eşleştirme yaklaşımına dayanmaktadır. Sorgular belge özelliklerini işlenenler olarak kabul eden mantık ifadeleridir. Geri getirilen belgeler genelde sıralanmaz. Acemi/Tecrübesiz kullanıcılara Boole sorgu ifadesi zor gelebilir. Boole geri-erişim modeli ile Boole sorguları birbirlerinden ayırma gereksinimi Saf Boole işleçleri: VE, VEYA, VE DEĞİL Bir çok sistem uzaklılık işleçlerine sahiptir Bir çok sistem basit düzenli ifadeleri desteklemektedir DOK 220 Bahar 2005 2005.03.01 - SLAYT 20

Vektör Uzayı Bilgi Geri Erişim Modeli Belge, terimlerin bir vektörü olarak gösterilir. Sorgu, serbest metin veya terimlerin bir vektörü olarak gösterilir. İki vektör arasındaki açı benzerlik ile ters orantılıdır. Belgeleri sorguya benzerliklerine göre sıralar. DOK 220 Bahar 2005 2005.03.01 - SLAYT 21

Benzerlik ölçüleri Bir bilgi erişim sistemi arama sorusuna benzeyen belgelere erişmeli benzemeyenleri reddetmelidir Bir dermedeki hangi belgelerin arama sorusunda istenenlere benzediğini (yani ilgili olduğunu) belirlemeye yarayan çeşitli benzerlik ölçüleri vardır DOK 220 Bahar 2005 2005.03.01 - SLAYT 22

Vektör Uzayında Benzerlik: Ortak Ölçümler DOK 220 Bahar 2005 2005.03.01 - SLAYT 23

Benzerlik Skorunun Hesaplanması: Kosinüs Katsayısı Pekmez Slide 38 of 79 Zile http://www.sims.berkeley.edu/courses/is296a-3/f98/lectures/ir-background/sld038.htm DOK 220 Bahar 2005 2005.03.01 - SLAYT 24

Arama Motorunun Merkezi Mimarisi DOK 220 Bahar 2005 2005.03.01 - SLAYT 25

Web Örümceği ve Veri Toplama Hiper-bağlantılı belgeler çizgedeki düğümler olarak görülebilir. İlginç altçizgeler: alan isimleri kesişen düğümler İzole altçizgeler: Dışardan referans almayan düğümler Veri toplama meseleleri: Her bir düğüm nasıl bir kere ziyaret edilecek Düğümlerin temsili örneklemi nasıl elde edilir DOK 220 Bahar 2005 2005.03.01 - SLAYT 26

Web Örümceği İşlevsel Mimarisi Belgeler İlinge Kütüğü Başlangıç URL HTTP Yükle Hyperlink Çıkartıcı Hyperlink Ayrıştırıcı Gezilecek URL ler kuyruğu Gezilen ve gezilecek olan URL ler Karşılaştırıcı DOK 220 Bahar 2005 2005.03.01 - SLAYT 27

Veri Toplama ve Sorgu Dili: Ortak Sorunlar Göreceli yollar: <A HREF=../../../bby220/ >Yayınlar</A> Tekrarlı sayfalar (%30): Aynı sayfa, farklı adres. Javascript: Dinamik HTML Çok büyük sayfalar: 10 MB sayfayı gerçekten tümü ile dizinlemek istiyor musunuz? Dinamik içerik: Web kaynakları tahmini olarak ortalama 75 gün değişmeden kalmaktadırlar. Kaliteli Web sayfaları: Nasıl ölçülür? Meta öznitelikler: description, keywords, title, vs. Bir kaç kelimelik sorgular (ortalama 1.5) DOK 220 Bahar 2005 2005.03.01 - SLAYT 28

Üst Arama Motorları DOK 220 Bahar 2005 2005.03.01 - SLAYT 29