Bilgi Erişim Sistemleri II



Benzer belgeler
Bilgi Erişim Performans Ölçüleri

Bilgi Erişim Sistemleri

DİZİN. Not: Koyu harfle yazılan sayfalar ilgili terimin yoğun olarak geçtiği sayfaları göstermektedir.

Türkçe Arama Motorlarında Performans Değerlendirme

sayıda soru için hiçbir ilgili belgeye erişemediklerinden soru başına erişilen ortalama ilgili belge sayıları düşüktür (1,5). Arama motorlarının

Bilgi Erişim Sorunu. Yaşar Tonta. Hacettepe Üniversitesi yunus.hacettepe.edu.tr/~tonta/ BBY163 Bilgi Yönetimi Kavramları

Semantik Bilgi Yönetimi

Web Madenciliği (Web Mining)

HACETTEPE ÜNİVERSİTESİ BİLGİ VE BELGE YÖNETİMİ BÖLÜMÜ TÜRKÇE İKTİSAT BÖLÜMÜ İÇİN ÇİFT ANADAL DERS PROGRAMI

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

VERİ MADENCİLİĞİ Metin Madenciliği

Course Content for Freshmen

İçindekiler. Ön Söz... xiii

Bilgiyi Keşfedin! Özelleştirme, Eklenti ve Veri Entegrasyonu Kurumsal Seviyede Yönetim ve Performans

ITHENTICATE İNTİHAL ÖNLEME PROGRAMI KILAVUZU

Bilimsel ve Teknik Dokümantasyon. Yrd. Doç.Dr. Özlem Bayram

Web Madenciliği (Web Mining)

Web Sayfasında Google Analitik Kullanımı ve Kullanıcı Davranışlarının Belirlenmesi: İstanbul Ticaret Üniversitesi Kütüphane Web Sayfası.

Algoritmalara Giriş 6.046J/18.401J

BÖLÜM-1.BİLİM NEDİR? Tanımı...1 Bilimselliğin Ölçütleri...2 Bilimin İşlevleri...3

Vega Ayarları. Vega Programının kurulu olduğu veritabanı ve web servisi için bağlantı ayarlarının yapıldığı menüdür.

Mikro Ayarları. Mikro Programının kurulu olduğu veritabanı ve web servisi için bağlantı ayarlarının yapıldığı menüdür.

BLG 1306 Temel Bilgisayar Programlama

LSI Keywords İle Sitenizin Sıralamasını Ve Trafiğini Arttırın

ÇEVRİM İÇİ VERİ TABANLARININ SEÇİMİ VE KULLANIMINDA KÜTÜPHANECİLERİN ROLÜ

Veritabanı Yönetimi Bilgisayarların. Keşfi Hedefler. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi

TS EN ISO KONTROL LİSTESİ ŞABLONU

Tarih Saat Modül Adı Öğretim Üyesi. 01/05/2018 Salı 3 Bilgisayar Bilimlerine Giriş Doç. Dr. Hacer Karacan

Veritabanı Dersi. Teoriden Pratiğe. Çağıltay N.E., Tokdemir G. Veritabanı Sistemleri Dersi -Bölüm XXV: Web'den Erişim Çağıltay, N., Tokdemir, G.

Semantik Ağ ve Üst Veri Sistemleri İçin Yeni Nesil Veri Tabanı Yönetim Modeli: NoSQL. R. Orçun Madran Atılım Üniversitesi.

Seo Eğitimi (300 Sattlik Eğitim) Seo. Genel Amaçları. Seo da Kullanılan Terimler. Nedir? Nasıl Çalışır? Nasıl Olmalıdır?

TS EN ISO EŞLEŞTİRME LİSTESİ

BÖLÜM 3 KURAMSAL ÇATI VE HİPOTEZ GELİŞ

Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri. Mustafa Kemal Üniversitesi

Web Madenciliği (Web Mining)

Web Madenciliği (Web Mining)

Görüntü Segmentasyonu (Bölütleme)

ODTÜ KÜTÜPHANESİ YENİ WEB SAYFASININ TASARIMI VE KULLANILABİLİRLİK ÇALIŞMASI

Bütünleşik Elektronik Bilgi Hizmetleri

Natura 2000 VERI TABANı (GÖREV 2)

BİLGİ ÜRETİMİ SÜRECİNDE DEĞER YARATAN UNSURLAR, 18 Aralık 2018, Bartın Üniversitesi

FAN SELECTOR FAN SELECTOR FAN SEÇİM YAZILIMI.

Kümeler arası. Küme içi. uzaklıklar. maksimize edilir. minimize edilir

Hacettepe Üniversitesinde Bilgi ve Belge Yönetimi Eğitimi

Manisa Celal Bayar Üniversitesi Yazılım Mühendisliği Bölümü YZM Veri Yapıları Dersi. Proje#2

İLİŞKİSEL VERİTABANI. İlişkisel veritabanlarının ortak özelliği verilerin tablolar aracılığı ile tutulmasıdır.

Yapısal Olmayan Verinin Potansiyelini Açığa Çıkarın

TCMB Deneyim Raporu. Kurumsal Java Uygulama Platformu. Sacit Uluırmak. Türkiye Cumhuriyet Merkez Bankası Sistem Araştırma ve Planlama Müdürlüğü

Kümeleme Algoritmaları. Tahir Emre KALAYCI

Küme temel olarak belli nesnelerin ya da elamanların bir araya gelmesi ile oluşur

Öğr. Gör. Serkan AKSU 1

İNFOSET İNFOSET Ses Kayıt Sistemi v2.0. Sistem Kataloğu

INTERNET NEDİR? INTERNET İN TARİHÇESİ WEB SAYFALARININ UZANTILARI

ELN1002 BİLGİSAYAR PROGRAMLAMA 2

VERİ MADENCİLİĞİ (Veri Önişleme-1) Yrd.Doç.Dr. Kadriye ERGÜN

15xx versiyonu / Tarihli Arşivin İçeriği

Yazarlar hakkında Editör hakkında Teşekkür

ÇEVİRİ İŞLETMELERİ DERNEĞİ

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

HACETTEPE ÜNİVERSİTE BİLGİ İŞLEM DAİRE BAŞKANLIĞI ŞİFRE DEĞİŞTİRME KILAVUZU

İleri Diferansiyel Denklemler

ĐSTEMCĐ SUNUCU SĐSTEMLER DERSĐ FĐNAL ÇALIŞMASI SORULAR YANITLAR

<Ekip Adı> <Proje Adı> Yazılım Gereksinimlerine İlişkin Belirtimler. Sürüm <1.0>

Veritabanı Uygulamaları Tasarımı

Üst Düzey Programlama

RİSK ANALİZİ VE AKTÜERYAL MODELLEME

Kalite Yönetimi. Kabul Örneklemesi 11. Hafta

MİNTERİM VE MAXİTERİM

BMT 202 Web Tasarımı Bahar Dönemi. Yük. Müh. Köksal GÜNDOĞDU 1

ODTÜ Kütüphanesi Yeni Web Sayfasının Tasarımı ve Kullanılabilirlik Çalışması

Boyut: Belirli bir doğrultuda ölçülmüş bir büyüklüğü ifade etmek için kullanılan geometrik bir terim.

SE4SEE A Grid-Enabled Search Engine for

COĞRAFİ BİLGİ SİSTEMLERİ ARCGIS GİRİŞ EĞİTİMİ

Veritabanı Yönetim Sistemleri

MIT OpenCourseWare Ekonomide İstatistiksel Yöntemlere Giriş Bahar 2009

Yapılan alan araştırması sonucunda aşağıdaki sonuçlar elde edilmiştir. ( ) ( ) ( ) ( )

Genel olarak test istatistikleri. Merkezi Eğilim (Yığılma) Ölçüleri Dağılım (Yayılma) Ölçüleri. olmak üzere 2 grupta incelenebilir.

Basit Mimari, Katmanlı Mimari ve doğrudan çalıştırma olarak üçe ayrılır.

Ödevler: Linux ve Uygulamalar Ertesi günün sabahına hazırlanması beklenen akşamlık ödevler

Tesadüfi Değişken. w ( )

İÇİNDEKİLER. Çeviri Ekibi /5 Çeviri Önsözü / 6 Şekiller Listesi / 8 Tablolar listesi / 9 Ayrıntılı İçerik / 10

Büyük Veri ve Endüstri Mühendisliği

3 KESİKLİ RASSAL DEĞİŞKENLER VE OLASILIK DAĞILIMLARI

... ROBOTİK VE KODLAMA EĞİTİMİ ÇERÇEVESİNDE ÖĞRETİM YILI BİLİŞİM TEKNOLOJİLERİ DERSİ ÜNİTELENDİRİLMİŞ YILLIK DERS PLANI

FTR 331 Ergonomi. Bilgiye Dayalı İş Yeri Düzenleme. emin ulaş erdem


KONU 4: DOĞRUSAL PROGRAMLAMA MODELİ İÇİN ÇÖZÜM YÖNTEMLERİ I

8.333 İstatistiksel Mekanik I: Parçacıkların İstatistiksel Mekaniği

Mobil Cihazlardan Web Servis Sunumu

Veri Yapıları ve Algoritmalar

AJAX nedir? AJAX nasıl çalışır? AJAX. Tahir Emre KALAYCI. Sunucu Yazılım Teknolojileri

Temel Kavramlar 1 Doğal sayılar: N = {0, 1, 2, 3,.,n, n+1,..} kümesinin her bir elamanına doğal sayı denir ve N ile gösterilir.

Tanımlayıcı İstatistikler. Yrd. Doç. Dr. Emre ATILGAN

Olasılığa Giriş Koşullu Olasılık Bayes Kuralı

Boosting. Birol Yüceoğlu Migros T.A.Ş.

GEZİNME ADAPTASYONU: NEDEN VE NASIL?

YZM ALGORİTMA ANALİZİ VE TASARIM DERS#9: AÇGÖZLÜ ALGORİTMALAR

Deneysel Yöntem. Yaşar Tonta H.Ü. BBY yunus.hacettepe.edu.tr/~tonta/courses/fall2007/sb5002/ SB5002 SLIDE 1

DİJİTAL REKLAMCILIK. ŞEFFAFLIK, KONTROL, RIZA Mart Teknik standartlar Geliştirilmektedir ve değişebilir

ESİS Projesi. Kaynaklar Bakanlığı

Transkript:

Bilgi Erişim Sistemleri II Hayri Sever Bilgisayar Mühendisliği Bölümü Başkent Üniversitesi 06530 Bağlıca Ankara sever@baskent.edu.tr Yaşar Tonta Bilge ve Belge Yönetimi Hacettepe Üniversitesi 06532 Beytepe, Anakara tonta@hacettepe.edu.tr

Alt Başlıklar Metin Teknolojileri Bilgi Geri-Erişim Sistemi İşlevsel Mimarisi Dizinleme Sorgulama Bilgi Geri-Erişim Modelleri Arama Motorları Üst Arama Motorlari Konu Algılama ve İzleme Bilgi Süzme

Metin-Tabanlı (Dil) Teknolojiler Bilgi Geri-Erişim (BGE) Soru Yanıt (SY) Bilgi Çıkarma Bilgi Süzme Ulamlama Özetleme Konu Algılama ve İzleme (KAİ) Makine Çevrimi Ses Tanıma

Bilgi Geri-Erişim Meseleleri Belge nedir ve boyu nasıl hesaplanır? Bu belge ne hakkındadır? Bu sorgu ne hakkındadır? Bu sorgu ve belge aynı şey hakkında mıdır? Bu belge verilen sorgu ile ilgili midir? Bu belge sisteme sunulan bilgi ihtiyacı ile ilgili midir? Bu belge ne kadar ilgilidir? Bu veritabanı verilen sorgu ile ilgili midir? Bu resim ne hakkındadır?

Bilgi Geri-Erişime İşlevsel Bakış

Belge İşleme ve Gösterimi Ön işlem: Noktalama işaretlerinin kaldırılması ve daha sonra durma listesinde bulunan kelimelerin belgeden ayıklanması. Gövdeleme: bir kelimeden yapım eklerinin korunup çekim eklerinin atılması. Belge Gösterimi için içerik terimleri ve onların göreceli ağırlıkları. Bir terimin ağırlığı onun belge içindeki sıklığı ile doğru, fakat derlem sıklığı ile ters orantılıdır.

Dizinler Dizin ne içermelidir? Veritabanı sistemi asıl ve ikincil anahtarları dizinler. BGE Problemi: anahtarları kestirebilmek? Çözüm: İçerik terimleri. Zip Kanunu: Terimlerin dağılımı ve sıraları arasındaki ilişki sabit bir değere yakınsar. İçerik terimlerin göreceliği ağırlığı ne olmalıdır? Sıklık Modeli: Terim sıklığı? Belge sıklığı? Ayrımsama Modeli: belge uzayının yoğunluğunu azaltan terim iyi bir terimdir. Dil modeli: Belgenin sözkonusu terimi üretme olasılığı ile derlemin üretme olasılığı arasındaki doğrusal ilişki ağırlığı belirler.

Zipf Kanunu

Ayrımsama Modeli

Sorgu İfadesi 2 temel sorgu dili türleri Boole, yapılı Serbest metin Bir çok sistem birisini ya da her ikisini birden desteklemektedir. Sorgu ifadesinin oluşturulmasında kullanıcı arayüzü önemlidir. Sorgu ifadesinin oluşturulması için araçlar Sorgu işleme ve ağırlıklandırma Sorgu genişletme Sözlükler ve eşanlamlı sözlük İlgililik geri bildirme

Sorgu İşleme Sorgu işleme adımları otomatik belge dizinlemeninkilere çok benzemektedir. Durma Kelime Listesi farklı olabilir Metin daha az gramatik ve kısa olabilir Kullanacı etkileşimi mümkün ve istenebilir Sorgu-tabanlı gövdeleme ve durma kelimeleri Diğer olası adımlar Tamlamaların tanınması Negatiflerin tanınması İlgili kelimelerle sorguların genişletmesi

Geri-Erişim Modelleri Boole model kesin eşleştirme yaklaşımına dayanmaktadır. Sorgular belge özelliklerini işlenenler olarak kabul eden mantık ifadeleridir. Geri getirilen belgeler genelde sıralanmaz. Acemi/Tecrübesiz kullanıcılara Boole sorgu ifadesi zor gelebilir. Boole geri-erişim modeli ile Boole sorguları birbirlerinden ayırma gereksinimi Saf Boole işleçleri: VE, VEYA, VE DEĞİL Bir çok sistem uzaklılık işleçlerine sahiptir Bir çok sistem basit düzenli ifadeleri desteklemektedir

Vektör Uzayı Bilgi Geri Erişim Modeli Belge, terimlerin bir vektörü olarak gösterilir. Sorgu, serbest metin veya terimlerin bir vektörü olarak gösterilir. İki vektör arasındaki açı benzerlik ile ters orantılıdır. Belgeleri sorguya benzerliklerine göre sıralar.

Vektör Uzayında Benzerlik: Ortak Ölçümler

Arama Motorunun Merkezi Mimarisi

Web Örümceği ve Veri Toplama Hiper-bağlantılı belgeler çizgedeki düğümler olarak görülebilir. İlginç altçizgeler: alan isimleri kesişen düğümler İzole altçizgeler: Dışardan referans almayan düğümler Veri toplama meseleleri: Her bir düğüm nasıl bir kere ziyaret edilecek Düğümlerin temsili örneklemi nasıl elde edilir

Web Örümceği İşlevsel Mimarisi Belgeler İlinge Kütüğü Başlangıç URL HTTP Yükle Hyperlink Ç ıkartıcı Hyperlink Ayrıştırıcı Gezilecek URL ler kuyruğu Gezilen ve gezilecek olan URL ler Karşılaştırıcı

Veri Toplama ve Sorgu Dili: Ortak Sorunlar Göreceli yollar: <A HREF=../../../bil367/ >Yayınlar</A> Tekrarlı sayfalar (%30): Aynı sayfa, farklı adres. Javascript: Dinamik HTML Çok büyük sayfalar: 10 MB sayfayı gerçekten tümü ile dizinlemek istiyor musunuz? Dinamik içerik: Web kaynakları tahmini olarak ortalama 75 gün değişmeden kalmaktadırlar. Kaliteli Web sayfaları: Nasıl ölçülür? Meta öznitelikler: description, keywords, title, vs. Bir kaç kelimelik sorgular (ortalama 1.5)

Üst Arama Motorları Tekli Çerçeve Çalışmaları Sadece bir sorgu işleme motoru. Belge başlığı, özet, vücut ve kaynakça ağırlıkları. Çoklu Çerçeve Çalışmaları Birden fazla sorgu işleme motoru. Veri Birleştirme ve Kolleksiyon Birleştirme.

Üst Arama Motorları

Üst Arama Problemi Skor Normalleştirme Adımı Farklı sistemler farklı erişim çıktıları sunar. Erişim çıktıları ortak bir ölçeğe çekilir. Birleştirme Adımı CombSUM ve CombMNZ en etkili yöntemler. Yöntem CombMIN CombMA X CombME D CombSU M CombANZ CombMN Z İşlev Bağı ğıms msız z skor değerlerinin erlerinin en küçük üçüğü Bağı ğımsız z skor değerlerinin erlerinin en büyüğüb Bağı ğımsız z skor değerlerinin erlerinin ortancası Bağı ğımsız z skor değerlerinin erlerinin Toplamı CombSUM / sıfırdan s farklı skor değerlerinin erlerinin sayısı CombSUM * sıfırdan s farklı skor değerlerinin erlerinin sayısı

Normalleştirme Yöntemleri Yöntem Adı Standart Sum ZMUV Açıklama Minimum değeri eri 0, Maximum değeri eri 1 olarak belirle. Minimum değeri eri 0, ve Sum ı 1 olarak belirle. Ortalamayı 0, varyansı 1 olarak belirle. Belge skorlarının doğrusal olarak kaydırılması ve ölçeklenmesi. Skorlar ilgili belgeler için doğru olasılıkları yansıtmalı. 4 arama sisteminden sonra azalan bir performans oluşmakta.

ZMUV Normalleştirme Bu teknik iki Gaussian dağılımın varyans ve ortalama değerleninin normalleştirilmesidir. İlgili ve ilgisiz belge skorlarının dağılımları iki normal dağılımın birleşimi ile modellenemez.

Konu Algılama ve İzleme (KAİ) Haber yayınlarının izlenerek yeni ve ilginç bir Ulusal Standartlar ve Teknoloji Enstitüsü(NIST) haber olduğunda ilgililerin uyarılmasını sağlayacak teknolojilerin geliştirilmesi. Amerika İleri Savunma Araştırma Projeleri (DARPA), tarafından desteklenen İlk çalışmalar 1997 yılında başlamıştır.

İlk Hikaye Algılama NBC NPR El Mundo ABC AP Sisteme yeni bir hikaye ulaştığında bunun tartıştığı konunun daha önceden tanımlanmış konularla ilgili değilse, yeni bir konu olduğunun belirlenmesi.

Küme Algılama NBC NPR El Mundo ABC AP... Gelen hikaye bir ilk hikaye değilse ilgili kümeye yerleştirir, eğer ilk hikaye ise bunun için yeni bir küme oluşturur (özellikler vektörünü kullanır).

Haber İzleme NBC NPR El Mundo ABC AP Haber kaynaklarından sisteme gelen haberleri değerlendirilerek, bu haberlerin daha önceden belirlenmiş olan konularla ilgili olup olmadıklarını

Hikaye Bağlantı Algılama NBC NPR CNN ABC AP??? Sisteme ulaşan iki farklı hikayenin aynı konuyu tartışıp tartışmadıklarını anlamayı amaçlar.

Bilgi Erişim Sistemleri II Hayri Sever Bilgisayar Mühendisliği Bölümü Başkent Üniversitesi 06530 Bağlıca Ankara sever@baskent.edu.tr Yaşar Tonta Bilge ve Belge Yönetimi Hacettepe Üniversitesi 06532 Beytepe, Anakara tonta@hacettepe.edu.tr