Bilgi Erişim Sistemleri



Benzer belgeler
Bilgi Erişim Sistemleri II

Bilgi Erişim Performans Ölçüleri

Bilgi Erişim Sorunu. Yaşar Tonta. Hacettepe Üniversitesi yunus.hacettepe.edu.tr/~tonta/ BBY163 Bilgi Yönetimi Kavramları

DİZİN. Not: Koyu harfle yazılan sayfalar ilgili terimin yoğun olarak geçtiği sayfaları göstermektedir.

Türkçe Arama Motorlarında Performans Değerlendirme

sayıda soru için hiçbir ilgili belgeye erişemediklerinden soru başına erişilen ortalama ilgili belge sayıları düşüktür (1,5). Arama motorlarının

Semantik Bilgi Yönetimi

BİLGİ TEKNOLOJİLERİ VE UYGULAMALARI

İÇERİK. Dersin işlenişi Bilgisayara giriş

Bilişim Teknolojileri Temelleri Dijital Dünyada Yaşamak

ENFORMATİK. Enformatik Bölümü

EYLÜL 2012 ENFORMATİK. Enformatik Bölümü

Öğr.Gör. Mehmet Can HANAYLI

WINDOWS 7. Eğitim ID 98 2/4 (Normal Seviye Kullanıcı) Konu ID Windows 7 Hakkında Genel Bilgi Ek Bilgi -

1 DERS İZLENCESİ 2 BİLGİSAYARA GİRİŞ Bilgisayar nedir? Bilgisayarın tarihçesi Bilgisayarın kullanıldığı alanlar Bilgisayarın kullanılmasında dikkat

VERİ MADENCİLİĞİ Metin Madenciliği

TEMEL BİLGİ TEKNOLOJİLERİ KULLANIMI. Bilgisayar I ve Bilgi İletişim Teknolojileri Dersi Öğr.Gör. Günay TEMUR

HACETTEPE ÜNİVERSİTESİ BİLGİ VE BELGE YÖNETİMİ BÖLÜMÜ TÜRKÇE İKTİSAT BÖLÜMÜ İÇİN ÇİFT ANADAL DERS PROGRAMI

Bilimsel ve Teknik Dokümantasyon. Yrd. Doç.Dr. Özlem Bayram

Veritabanı Yönetimi Bilgisayarların. Keşfi Hedefler. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi

Donanım Nedir? Bir bilgisayar sisteminde bulunan fiziksel aygıtların tümü

Merkezi İşlem. Birimi

Course Content for Freshmen

BİLGİSAYAR KULLANMA KURSU

1. Hafıza Depolama Araçları. 2. Hafıza Çeşitleri. 3. Hafıza Ölçümü. 4. Bilgisayar Performansı

YAŞAR ÜNİVERSİTESİ MÜHENDİSLİK FAKÜLTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ 4 YILLIK EĞİTİM PLANI ( AKADEMİK YILINDAN İTİBAREN GEÇERLİDİR)

Donanımlar Hafta 1 Donanım

Anlamsal Bilgi Yönetiminde Üst Veri Sistemlerinin ve Ontolojilerin Kullanımı

BİLGİ ÜRETİMİ SÜRECİNDE DEĞER YARATAN UNSURLAR, 18 Aralık 2018, Bartın Üniversitesi

Semantik Ağ ve Üst Veri Sistemleri İçin Yeni Nesil Veri Tabanı Yönetim Modeli: NoSQL. R. Orçun Madran Atılım Üniversitesi.

Düşünelim? Günlük hayatta bilgisayar hangi alanlarda kullanılmaktadır? Bilgisayarın farklı tip ve özellikte olmasının sebepleri neler olabilir?

İş Analitiği'ne Netezza ile Yüksek Performans Katın

Sanayi Toplumundan Bilgi Toplumuna Geçiş Sürecinde Temel Dinamikler

Bilgisayar Temel kavramlar - Donanım -Yazılım Ufuk ÇAKIOĞLU

Ünite-2 Bilgisayar Organizasyonu.

ÇEVRİM İÇİ VERİ TABANLARININ SEÇİMİ VE KULLANIMINDA KÜTÜPHANECİLERİN ROLÜ

Yrd. Doç. Dr. İlhan AYDIN Güz Dönemi Fırat Üniversitesi Bilgisayar Mühendisliği Bölümü

Bilgiyi Keşfedin! Özelleştirme, Eklenti ve Veri Entegrasyonu Kurumsal Seviyede Yönetim ve Performans

Web Madenciliği (Web Mining)

Veritabanı Uygulamaları Tasarımı

Bilgi Toplumu = Herkes İçin Bilgi, Alt Yapı ve Fırsat

BİLGİSAYAR AĞLARI VE İLETİŞİM

İçindekiler. Ön Söz... xiii

3. sınıf. Bilgisayarla kataloglamanın doğuşu gelişimi ve bugünkü durum ele alınmaktadır. Bu derste

BİLGİSAYAR NEDİR? mantıksal ve aritmetiksel işlemler. işlemlerin sonucunu saklama. saklanan bilgilere ulaşılma

1. HAFTA KBT104 BİLGİSAYAR DONANIMI. KBUZEM Karabük Üniversitesi Uzaktan Eğitim Uygulama ve Araştırma Merkezi

Temel Bilgisayar Bilgisi

ALGORİTMA VE PROGRAMLAMAYA GİRİŞ

Akademik Bilgi Hizmetlerinin Kişiselleştirilmesi

Hacettepe Üniversitesinde Bilgi ve Belge Yönetimi Eğitimi

İnsan-Bilgisayar Etkileşimi Mesleki Terminoloji 2

BIG CONTENT > BIG DATA

ODTÜ KÜTÜPHANESİ YENİ WEB SAYFASININ TASARIMI VE KULLANILABİLİRLİK ÇALIŞMASI

Ham Veri. İşlenmiş Veri Kullanıcı. Kullanıcı. Giriş İşleme Çıkış. Yazılı Çizili Saklama. Doç.Dr. Yaşar SARI-ESOGÜ-Turizm Fakültesi

Yanıtlar: Twitter Facebook Instagram Myspace

Web Sayfasında Google Analitik Kullanımı ve Kullanıcı Davranışlarının Belirlenmesi: İstanbul Ticaret Üniversitesi Kütüphane Web Sayfası.

Bilgi ve iletişim teknolojileri

Araştırma Önerisi ve Araştırma Raporu

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

Bil101 Bilgisayar Yazılımı I. M. Erdem ÇORAPÇIOĞLU Bilgisayar Yüksek Mühendisi

ODTÜ Kütüphanesi Yeni Web Sayfasının Tasarımı ve Kullanılabilirlik Çalışması

Bilgi Teknolojisinin Temel Kavramları

BİLGİ OKURYAZARLIĞI EĞİTİM PROGRAMI TASARIMI ÇALIŞTAYI

Donanım Nedir? Bir bilgisayar sisteminde bulunan fiziksel aygıtların tümü

SANAL ARAŞTIRMA ORTAMLARI ve AÇIK VERİLER. Bülent Karasözen, ODTÜ INER-TR Aralık 2005, Bahçeşehir Üniversitesi

Donanım Nedir? Bir bilgisayar sisteminde bulunan fiziksel aygıtların tümü

Bilişim Teknolojileri Temelleri 2011

Bilimsel İletişim ve Bibliyometri

Bilgi ve Bilgi Sistemleri. Bilgisayar Mühendisliğine Giriş 1

TEMEL BĐLGĐ TEKNOLOJĐLERĐ KULLANIMI BÜLENT TURAN

Büyük, Dağıtık, Veri Yoğunluklu Uygulamalarda Programlama Paradigmaları

ÇEVİRİ İŞLETMELERİ DERNEĞİ

Bilimsel İletişim ve Bibliyometri

BLM-431 YAPAY ZEKA. Ders-4 Bilgisiz Arama Yöntemleri. Yrd. Doç. Dr. Ümit ATİLA

TS EN ISO EŞLEŞTİRME LİSTESİ

Dünya çapında 60 dan fazla ülkede kullanılan Westlaw International;

SIMÜLASYON DERS SORUMLUSU: DOÇ.DR. SAADETTIN ERHAN KESEN. Ders No:2 Simülasyon Örnekleri

... ROBOTİK VE KODLAMA EĞİTİMİ ÇERÇEVESİNDE ÖĞRETİM YILI BİLİŞİM TEKNOLOJİLERİ DERSİ ÜNİTELENDİRİLMİŞ YILLIK DERS PLANI

Yanıtlar: Twitter Facebook Instagram Myspace

5. SINIF TÜRKÇE DERSİ KURS KAZANIMLARI VE TESTLERİ

WINDOWS DERS NOTLARI

ÇALIŞMA SORULARI CEVAPLAR. 1)Aşağıdakilerden hangisinde bilgisayarın kaç ana bölüme ayrıldığı ve adları doğru bir şekilde verilmiştir?

BİLGİ VE İLETİŞİM TEKNOLOJİLERİ

Algoritmalar. Arama Problemi ve Analizi. Bahar 2016 Doç. Dr. Suat Özdemir 1

HERKES İÇİN BİLGİ ATATÜRK ÜNİVERSİTESİ AÇIK ARŞİVİ. Coşkun POLAT

BBY 163: Bilgi Yönetimi Kavramları

Bilginin Düzenlenmesinde Yenilikler

Bilgiye Erişim Sistemleri Information Retrieval (IR) Systems. M.Fatih AMASYALI BLM 5212 Doğal Dil İşlemeye Giriş Ders Notları

TS EN ISO KONTROL LİSTESİ ŞABLONU

Mikrobilgisayar ve Assembler

INTERNET NEDİR? INTERNET İN TARİHÇESİ WEB SAYFALARININ UZANTILARI

Bilgisayar Bilimlerine Giriş

BİT in Temel Kavramları

BİLİMSEL BİLGİYE ERİŞİM

Street Smart Marketing

duralbend.com Web Sayfasının Seo Analiz Raporu

LSI Keywords İle Sitenizin Sıralamasını Ve Trafiğini Arttırın

İKLİM DEĞİŞİKLİĞİNİN SU KAYNAKLARINA ETKİSİ PROJESİ

Bilgisayara Giriş Konular

springerlink.com SpringerLink springerlink.com

Transkript:

Bilgi Erişim Sistemleri Hayri Sever Başkent Üniversitesi sever@baskent.edu.tr www.baskent.edu.tr/~sever/ Yaşar Tonta Hacettepe Üniversitesi tonta@hacettepe.edu.tr yunus.hacettepe.edu.tr/~tonta/ AB 2005, Gaziantep 2-4 Şubat 2005-1

Plan Bilgi artışı Bilgi erişim sorunu Tanım Bilgi erişim sistemlerinin mantıksal yapısı Erişim kuralları Performans ölçümleri Bilgi erişim ve Internet AB 2005, Gaziantep 2-4 Şubat 2005-2

Bilgi... Bilgi depolama ortamları beyin, kültürel birikim, dış ortamlar Bilgi iletim ortamı dağıtık ağlar: 14 saniyede Kongre Kütüphanesi nin içeriğini bir yerden bir yere iletmek mümkün Bilgi işleme ortamları beyin, bilgisayarlar, insanlardan daha akıllı makineler, yapay beyin AB 2005, Gaziantep 2-4 Şubat 2005-3

Depolama Maliyetleri Kaynak: http://www.berghell.com/whitepapers/storage%20costs.pdf AB 2005, Gaziantep 2-4 Şubat 2005-4

Depolama Maliyetleri Depolama Fiyatları (1992-2023) 1.000.000,0 100.000,0 Fiyatlar her yıl %45 düşüyor 1 Gigabyte (USD) 1 Terabyte (USD) 10.000,0 Maliyet (USD) 1.000,0 100,0 10,0 1,0 0,1 0,0 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 421 USD 0,42 USD AB 2005, Gaziantep 2-4 Şubat 2005-5 2008 Yıl 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022 2023 Kaynak: http://www.berghell.com/whitepapers/storage%20costs.pdf

İletim Maliyetleri Kaynak: ULAKBİM Faaliyet Raporu, 2003 (www.ulakbim.gov.tr/hakkimizda/faaliyet/faaliyet03.uhtml) AB 2005, Gaziantep 2-4 Şubat 2005-6

Bilgi Patlaması 5 Exabyte (5 x 10 18 byte) 2002 de dünyada üretilen yeni bilgi miktarı (5 x 10 18 byte) 5 Exabyte lık bilgi = 37,000 yeni Kongre Kütüphanesi! Yüzey web de 10 milyar belge var (167 Terabyte) var Derin web de 550 milyar belge var (91857 Terabyte) Kaynak: BrightPlanet & Lyman and Varian AB 2005, Gaziantep 2-4 Şubat 2005-7

Bir Exabyte (EB) ne kadar büyük? 1,000 bytes OR 10 3 bytes Kilobyte (KB) 2 Kilobytes: A Typewritten page. 100 Kilobytes: A low-resolution photograph. 1,000,000 bytes OR 10 6 bytes 1 Megabyte: A small novel OR a 3.5 inch floppy disk. 2 Megabytes: A high-resolution photograph. 5 Megabytes: The complete works of Shakespeare. 10 Megabytes: A minute of high-fidelity sound. Megabyte (MB) 100 Megabytes: 1 meter of shelved books. 500 Megabytes: A CD-ROM. 1,000,000,000 bytes OR 10 9 bytes 1 Gigabyte: a pickup truck filled with books. Gigabyte (GB) 20 Gigabytes: A good collection of the works of Beethoven. 100 Gigabytes: A library floor of academic journals. 1,000,000,000,000 bytes OR 10 12 bytes 1 Terabyte: 50000 trees made into paper and printed. 2 Terabytes: An academic research library. Terabyte (TB) Petabyte (PB) Exabyte (EB) 10 Terabytes: The print collections of the U.S. Library of Congress. 400 Terabytes: National Climactic Data Center (NOAA) database. 1,000,000,000,000,000 bytes OR 10 15 bytes 1 Petabyte: 3 years of EOS data (2001). 2 Petabytes: All U.S. academic research libraries. 20 Petabytes: Production of hard-disk drives in 1995. 200 Petabytes: All printed material. 1,000,000,000,000,000,000 bytes OR 10 18 bytes 2 Exabytes: Total volume of information generated in 1999. 5 Exabytes: All words ever spoken by human beings. Kaynak: How much information 2003, Tablo 1.1 AB 2005, Gaziantep 2-4 Şubat 2005-8

Bilgi Artışı Tablo 1. 2002 de dünyada üretilen özgün dijital bilgi üretimi. İyimser tahminlerde bilginin dijital olarak tarandığı varsayıldı, alt tahminlerde dijital içeriğin sıkıştırıldığı varsayıldı. Depolama ortamı 2002 Üst tahmin (Terabyte olarak) 2002 Alt tahmin (Terabyte olarak) 1999-2000 Üst tahmin 1999-2000 Alt tahmin % Değişim Üst tahminler Kâğıt 1,634 327 1,200 240 %36 Film 420,254 76,69 431,690 58,209 %-3 Manyetik 5187130 3,416,230 2,779,760 2,073,760 %87 Optik 103 51 81 29 %28 TOPLAM 5,609,121 3,416,281 3,212,731 2,132,238 %74.5 Kaynak: Lyman ve Varian AB 2005, Gaziantep 2-4 Şubat 2005-9

Bilgi Miktarı 5,4 Exabyte (milyar x milyar byte: 54 milyar Economist dergisinin içeriğine eşit) ABD de her yıl 80 milyar fotoğraf çekiliyor 2 milyar röntgen filmi çekiliyor Günde 610 milyar e-posta mesajı gönderiliyor Her yıl 15 trilyon sayfa yazıcılardan çıktı alınıyor AB 2005, Gaziantep 2-4 Şubat 2005-10

Bilgi Erişim Sorunu Wells, World Encyclopedia (1936) Bush, As we may think, Atlantic Monthly, (1945) Memex (memory expansion) bilgi erişim (IR) teriminin ilk kez kullanımı (Calvin Mooers, 1952) Otomatik dizinleme KWIC/KWOC (Luhn, 1958) Boole modeli (Lockheed, 1960 lar) Mantıksal model (Mooers, Cooper & Maron, Van Rijsbergen, 1960- ) Olasılık modeli (Maron-Kuhns, 1960; Robertson-Jones, 1976; Robertson-Maron-Cooper, 1982; Croft, 1979 ) Vektör uzayı modeli (Gerard Salton, 1961) İstatistiksel ağırlıklandırma (tf*idf, 1970 ler) Dil modelleri (Ponte-Croft, 1998) Performans ölçümleri Cranfield, Medlars, SMART, STAIRS, TREC, 1960- (Cleverdon, Lancaster, Salton, Blair-Maron, Harman) AB 2005, Gaziantep 2-4 Şubat 2005-11

Memex ve Türkler The owner of the memex, let us say, is interested in the origin and properties of the bow and arrow. Specifically he is studying why the short Turkish bow was apparently superior to the English long bow in the skirmishes of the Crusades. He has dozens of possibly pertinent books and articles in his memex. First he runs through an encyclopedia,... Thus he goes, building a trail of many items... Thus he builds a trail of his interest through the maze of materials available to him. And his trails do not fade. Several years later, his talk with a friend turns to the queer ways in which a people resist innovations, even of vital interest. He has an example, in the fact that the outraged Europeans still failed to adopt the Turkish bow. In fact he has a trail on it. A touch brings up the code book.... It is an interesting trail, pertinent to the discussion. So he sets a reproducer in action, photographs the whole trail out, and passes it to his friend for insertion in his own memex, there to be linked into the more general trail. AB 2005, Gaziantep 2-4 Şubat 2005-12

Bilgi Erişim bilgi toplama, sınıflama, kataloglama, depolama, büyük miktardaki verilerden arama yapma ve bu verilerden istenen bilgiyi üretme (veya gösterme) tekniği ve süreci AB 2005, Gaziantep 2-4 Şubat 2005-13

Bilgi Erişimin Entellektüel Temelleri Sistem felsefesi Bilim felsefesi Dil felsefesi AB 2005, Gaziantep 2-4 Şubat 2005-14

Dil Felsefesi ve Bilgi Erişim Bilgi düzenleme ve bilgi erişim de dil kullanımının özel bir türü Sistematik dizinleme (J. Otto Kaiser) Dilbilimsel yapılar Sözdağarı Anlambilim Sözdizimi Kataloglama, sınıflama, dizinleme AB 2005, Gaziantep 2-4 Şubat 2005-15

Sınıflama Kuramı Sınıflama dile dayanıyor Dil belirsizlikler içeriyor Kavramlar üzerinde anlaşma sağlamak zor Domates meyve mi sebze mi? George Lakoff, Women, Fire and Dangerous Things Alternatif tıp hangi konuya girer? Felsefe? Din? Sağlık ve tıp? AB 2005, Gaziantep 2-4 Şubat 2005-16

Well, it all started with an unsuccessful subject search AB 2005, Gaziantep 2-4 Şubat 2005-17

Bilgi Erişimin Temel İkilemi Hakkında bilgi bulmak için bilmediğin bir şeyi tanımlama gereği (Hjerrpe) AB 2005, Gaziantep 2-4 Şubat 2005-18

Bilgi Keşfetme, Tanımlama, Düzenleme ve Erişim Keşfetme Tanımlama Keşfetme Tanımlama Düzenleme Düzenleme Erişim Erişim AB 2005, Gaziantep 2-4 Şubat 2005-19

Belge Erişim Sisteminin Mantıksal Düzenlemesi Belgeler Kullanıcılar Dizinleme Gömü - Sözlük Sorgu formülasyonu Dizin tutanakları Erişim kuralı Formel sorgu cümlesi Kaynak: Maron, 1984 AB 2005, Gaziantep 2-4 Şubat 2005-20

İdeal Bilgi Erişim Sistemi İlgili belgelerin tümüne ve salt ilgili belgelere erişim sağlamalı İlgililik kavramı Nesnel ilgililik Öznel ilgililik Birbirine benzeyen bilgileri bir araya getirmek, benzemeyenleri ayırmak AB 2005, Gaziantep 2-4 Şubat 2005-21

Erişim Kuralları Boole mantığı Vektör uzayı modeli Set kuramına dayanıyor. Boole işleçleri VE, VEYA, DEĞİL- kullanılıyor σ(d,q) = (t k xq k ) / (t k ) 2 x (q k ) 2 t k = k teriminin belgedeki değeri q k = k teriminin sorgudaki değeri Olasılık modeli P (ilgili) = n / N P( ilgili) = 1 P(ilgili) = N n / N n = ilgili belge sayısı N = toplam belge sayısı İstatistiksel ağırlıklandırma (tf*idf) Ağırlıklandırma ilkesi: İlgili belgelerde sık AMA derlemin tamamında seyrek geçen terimleri daha yüksek ağırlıklandır AB 2005, Gaziantep 2-4 Şubat 2005-22

Benzerlik Skorunun Hesaplanması Pekmez Slide 38 of 79 Zile http://www.sims.berkeley.edu/courses/is296a-3/f98/lectures/ir-background/sld038.htm AB 2005, Gaziantep 2-4 Şubat 2005-23

Bilgi Erişim Sistemleri Mükemmel Değil! Bilgi Erişim Sistemleri Mükemmel Değil! N y İLGİLİ v x u ERİŞİLEN v tipi hatalar u tipi hatalar AB 2005, Gaziantep 2-4 Şubat 2005-24

Bilgi Erişim Performansı ERİŞİLEN ERİŞİLE -MEYEN İLGİLİ İLGİSİZ x u n 1 v y N v x u y n 2 İLGİLİ ERİŞİLEN Duyarlık = x / n 1 Anma = x / n2 Posa = u / u + y Genellik = n 2 / N AB 2005, Gaziantep 2-4 Şubat 2005-25

Yetersizlik Aksiyomları I Bir bilgi ihtiyacı bağlamdan bağımsız olarak ifade edilemez. Bir makineye bir soruyu uygun arama terimlerine çevirmesini öğretmek olanaksızdır. Bir belgenin ilgili olup olmaması görülen diğer belgelere bağlıdır. Bütün ilgili belgelerin bulunup bulunmadığını doğrulamak asla mümkün değildir. Makineler anlamı tanıyamaz -> entellektüel dizinleme kadar başarılı değildir, vs. AB 2005, Gaziantep 2-4 Şubat 2005-26

Yetersizlik Aksiyomları II Sözcük sıklığı istatistikleri ne anlamı temsil edebilir, ne de anlam yerine geçebilir. Bir bilgi erişim sisteminin bir tekrarlı süreci destekleme yeteneği insanlar tarafından sadece bir kez yapılan ilgililik değerlendirmesiyle değerlendirilemez. Ya sağlam ilgililik değerlendirmesi ya da çok etkili mekanik süreçlere sahip olabilirsiniz, ama ikisine birden asla. Yani, tutarlı bir şekilde etkin olan tamamen otomatik dizinleme ve erişim mümkün değildir. AB 2005, Gaziantep 2-4 Şubat 2005-27 Kaynak: Swanson, 1988

Internet Zaman ve mekân engelinin ortadan kalkması Bilgi kaynaklarına ve hizmetlerine günde 24 saat haftada 7 gün uzaktan erişim Anında memnuniyet AB 2005, Gaziantep 2-4 Şubat 2005-28

Bilgi Erişim ve Internet... Yangın hortumundan su içmek Dijital belgeler : devingen, sınırları belirsiz, kendi kendini değiştirebilen belge Dizinleme ve bilgi erişim teknikleri yetersiz Erişim doğrusal ve hantal İnsan beyninde ise dizinleme ve erişim bağıntılı Acaba yakın gelecekte taklit edilebilir mi? Ses, koku, vs. bilgisine erişim? Beyin dışında kayıtlı bilgiler insanın düşünme ve sorun çözme gücünün bir parçası haline getirilebilir mi? AB 2005, Gaziantep 2-4 Şubat 2005-29

Bilgi Erişim Sistemleri Hayri Sever Başkent Üniversitesi sever@baskent.edu.tr www.baskent.edu.tr/~sever/ Yaşar Tonta Hacettepe Üniversitesi tonta@hacettepe.edu.tr yunus.hacettepe.edu.tr/~tonta/ AB 2005, Gaziantep 2-4 Şubat 2005-30

Bilgi Erişim Sistemleri II Hayri Sever Bilgisayar Mühendisliği Bölümü Başkent Üniversitesi 06530 Bağlıca Ankara sever@baskent.edu.tr Yaşar Tonta Bilge ve Belge Yönetimi Hacettepe Üniversitesi 06532 Beytepe, Anakara tonta@hacettepe.edu.tr AB 2005, Gaziantep 2-4 Şubat 2005-31

Alt Başlıklar Metin Teknolojileri Bilgi Geri-Erişim Sistemi İşlevsel Mimarisi Dizinleme Sorgulama Bilgi Geri-Erişim Modelleri Arama Motorları Üst Arama Motorları Konu Algılama ve İzleme Bilgi Süzme AB 2005, Gaziantep 2-4 Şubat 2005-32

Metin-Tabanlı (Dil) Teknolojiler Bilgi Geri-Erişim (BGE) Soru Yanıt (SY) Bilgi Çıkarma Bilgi Süzme Ulamlama Özetleme Konu Algılama ve İzleme (KAİ) Makine Çevrimi Ses Tanıma AB 2005, Gaziantep 2-4 Şubat 2005-33

Bilgi Geri-Erişim Meseleleri Belge nedir ve boyu nasıl hesaplanır? Bu belge ne hakkındadır? Bu sorgu ne hakkındadır? Bu sorgu ve belge aynı şey hakkında mıdır? Bu belge verilen sorgu ile ilgili midir? Bu belge sisteme sunulan bilgi ihtiyacı ile ilgili midir? Bu belge ne kadar ilgilidir? Bu veritabanı verilen sorgu ile ilgili midir? Bu resim ne hakkındadır? AB 2005, Gaziantep 2-4 Şubat 2005-34

Bilgi Geri-Erişime İşlevsel Bakış AB 2005, Gaziantep 2-4 Şubat 2005-35

Belge İşleme ve Gösterimi Ön işlem: Noktalama işaretlerinin kaldırılması ve daha sonra durma listesinde bulunan kelimelerin belgeden ayıklanması. Gövdeleme: bir kelimeden yapım eklerinin korunup çekim eklerinin atılması. Belge Gösterimi için içerik terimleri ve onların göreceli ağırlıkları. Bir terimin ağırlığı onun belge içindeki sıklığı ile doğru, fakat derlem sıklığı ile ters orantılıdır. AB 2005, Gaziantep 2-4 Şubat 2005-36

Dizinler Dizin ne içermelidir? Veritabanı sistemi asıl ve ikincil anahtarları dizinler. BGE Problemi: anahtarları kestirebilmek? Çözüm: İçerik terimleri. Zipf Kanunu: Terimlerin dağılımı ve sıraları arasındaki ilişki sabit bir değere yakınsar. İçerik terimlerin göreceliği ağırlığı ne olmalıdır? Sıklık Modeli: Terim sıklığı? Belge sıklığı? Ayrımsama Modeli: belge uzayının yoğunluğunu azaltan terim iyi bir terimdir. Dil modeli: Belgenin sözkonusu terimi üretme olasılığı ile derlemin üretme olasılığı arasındaki doğrusal ilişki ağırlığı belirler. AB 2005, Gaziantep 2-4 Şubat 2005-37

Zipf Kanunu AB 2005, Gaziantep 2-4 Şubat 2005-38

Ayrımsama Modeli AB 2005, Gaziantep 2-4 Şubat 2005-39

Sorgu İfadesi 2 temel sorgu dili türleri Boole, yapılı Serbest metin Bir çok sistem birisini ya da her ikisini birden desteklemektedir. Sorgu ifadesinin oluşturulmasında kullanıcı arayüzü önemlidir. Sorgu ifadesinin oluşturulması için araçlar Sorgu işleme ve ağırlıklandırma Sorgu genişletme Sözlükler ve eşanlamlı sözlük İlgililik geri bildirme AB 2005, Gaziantep 2-4 Şubat 2005-40

Sorgu İşleme Sorgu işleme adımları otomatik belge dizinlemeninkile çok benzemektedir. Durma Kelime Listesi farklı olabilir Metin daha az gramatik ve kısa olabilir Kullanıcı etkileşimi mümkün ve istenebilir Sorgu-tabanlı gövdeleme ve durma kelimeleri Diğer olası adımlar Tamlamaların tanınması Negatiflerin tanınması İlgili kelimelerle sorguların genişletmesi AB 2005, Gaziantep 2-4 Şubat 2005-41

Geri-Erişim Modelleri Boole model kesin eşleştirme yaklaşımına dayanmaktadır. Sorgular belge özelliklerini işlenenler olarak kabul eden mantık ifadeleridir. Geri getirilen belgeler genelde sıralanmaz. Acemi/Tecrübesiz kullanıcılara Boole sorgu ifadesi zor gelebilir. Boole geri-erişim modeli ile Boole sorguları birbirlerinden ayırma gereksinimi Saf Boole işleçleri: VE, VEYA, VE DEĞİL Bir çok sistem uzaklılık işleçlerine sahiptir Bir çok sistem basit düzenli ifadeleri desteklemektedir AB 2005, Gaziantep 2-4 Şubat 2005-42

Vektör Uzayı Bilgi Geri Erişim Modeli Belge, terimlerin bir vektörü olarak gösterilir. Sorgu, serbest metin veya terimlerin bir vektörü olarak gösterilir. İki vektör arasındaki açı benzerlik ile ters orantılıdır. Belgeleri sorguya benzerliklerine göre sıralar. AB 2005, Gaziantep 2-4 Şubat 2005-43

Vektör Uzayında Benzerlik: Ortak Ölçümler AB 2005, Gaziantep 2-4 Şubat 2005-44

Arama Motorunun Merkezi Mimarisi AB 2005, Gaziantep 2-4 Şubat 2005-45

Web Örümceği ve Veri Toplama Hiper-bağlantılı belgeler çizgedeki düğümler olarak görülebilir. İlginç altçizgeler: alan isimleri kesişen düğümler İzole altçizgeler: Dışardan referans almayan düğümler Veri toplama meseleleri: Her bir düğüm nasıl bir kere ziyaret edilecek Düğümlerin temsili örneklemi nasıl elde edilir AB 2005, Gaziantep 2-4 Şubat 2005-46

Web Örümceği İşlevsel Mimarisi Belgeler İlinge Kütüğü Başlangıç URL HTTP Yükle Hyperlink Çıkartıcı Hyperlink Ayrıştırıcı Gezilecek URL ler kuyruğu Gezilen ve gezilecek olan URL ler Karşılaştırıcı AB 2005, Gaziantep 2-4 Şubat 2005-47

Veri Toplama ve Sorgu Dili: Ortak Sorunlar Göreceli yollar: <A HREF=../../../bil367/ >Yayınlar</A> Tekrarlı sayfalar (%30): Aynı sayfa, farklı adres. Javascript: Dinamik HTML Çok büyük sayfalar: 10 MB sayfayı gerçekten tümü ile dizinlemek istiyor musunuz? Dinamik içerik: Web kaynakları tahmini olarak ortalama 75 gün değişmeden kalmaktadırlar. Kaliteli Web sayfaları: Nasıl ölçülür? Meta öznitelikler: description, keywords, title, vs. Bir kaç kelimelik sorgular (ortalama 1.5) AB 2005, Gaziantep 2-4 Şubat 2005-48

Üst Arama Motorları Tekli Çerçeve Çalışmaları Sadece bir sorgu işleme motoru. Belge başlığı, özet, vücut ve kaynakça ağırlıkları. Çoklu Çerçeve Çalışmaları Birden fazla sorgu işleme motoru. Veri Birleştirme ve Kolleksiyon Birleştirme. AB 2005, Gaziantep 2-4 Şubat 2005-49

Üst Arama Motorları AB 2005, Gaziantep 2-4 Şubat 2005-50

Üst Arama Problemi Skor Normalleştirme Adımı Farklı sistemler farklı erişim çıktıları sunar. Erişim çıktıları ortak bir ölçeğe çekilir. Birleştirme Adımı CombSUM ve CombMNZ en etkili yöntemler. Yöntem CombMI N CombMA X CombME D CombSU M CombAN Z CombMN Z İşlev Bağımsız skor değerlerinin en küçüğü Bağımsız skor değerlerinin en büyüğü Bağımsız skor değerlerinin ortancası Bağımsız skor değerlerinin Toplamı CombSUM / sıfırdan farklı skor değerlerinin sayısı CombSUM * sıfırdan farklı skor değerlerinin sayısı AB 2005, Gaziantep 2-4 Şubat 2005-51

Normalleştirme Yöntemleri Yöntem Adı Standart Sum ZMUV Açıklama Minimum değeri 0, Maximum değeri 1 olarak belirle. Minimum değeri 0, ve Sum ı 1 olarak belirle. Ortalamayı 0, varyansı 1 olarak belirle. Belge skorlarının doğrusal olarak kaydırılması ve ölçeklenmesi. Skorlar ilgili belgeler için doğru olasılıkları yansıtmalı. 4 arama sisteminden sonra azalan bir performans oluşmakta. AB 2005, Gaziantep 2-4 Şubat 2005-52

ZMUV Normalleştirme Bu teknik iki Gaussian dağılımın varyans ve ortalama değerleninin normalleştirilmesidir. İlgili ve ilgisiz belge skorlarının dağılımları iki normal dağılımın birleşimi ile modellenemez. AB 2005, Gaziantep 2-4 Şubat 2005-53

Konu Algılama ve İzleme (KAİ) Haber yayınlarının izlenerek yeni ve ilginç bir haber olduğunda ilgililerin uyarılmasını sağlayacak teknolojilerin geliştirilmesi. Amerika İleri Savunma Araştırma Projeleri (DARPA), Ulusal Standartlar ve Teknoloji Enstitüsü(NIST) tarafından desteklenen İlk çalışmalar 1997 yılında başlamıştır. AB 2005, Gaziantep 2-4 Şubat 2005-54

İlk Hikaye Algılama NBC NPR El Mundo ABC AP Sisteme yeni bir hikaye ulaştığında bunun tartıştığı konunun daha önceden tanımlanmış konularla ilgili değilse, yeni bir konu olduğunun belirlenmesi. AB 2005, Gaziantep 2-4 Şubat 2005-55

Küme Algılama NBC NPR El Mundo ABC AP... Gelen hikaye bir ilk hikaye değilse ilgili kümeye yerleştirir, eğer ilk hikaye ise bunun için yeni bir küme oluşturur (özellikler vektörünü kullanır). AB 2005, Gaziantep 2-4 Şubat 2005-56

Haber İzleme NBC NPR El Mundo ABC AP Haber kaynaklarından sisteme gelen haberleri değerlendirilerek, bu haberlerin daha önceden belirlenmiş olan konularla ilgili olup olmadıklarını araştırır. AB 2005, Gaziantep 2-4 Şubat 2005-57

Hikaye Bağlantı Algılama NBC NPR CNN ABC AP??? Sisteme ulaşan iki farklı hikayenin aynı konuyu tartışıp tartışmadıklarını anlamayı amaçlar. AB 2005, Gaziantep 2-4 Şubat 2005-58

Bilgi Erişim Sistemleri II Hayri Sever Bilgisayar Mühendisliği Bölümü Başkent Üniversitesi 06530 Bağlıca, Ankara sever@baskent.edu.tr Yaşar Tonta Bilge ve Belge Yönetimi Hacettepe Üniversitesi 06532 Beytepe, Anakara tonta@hacettepe.edu.tr AB 2005, Gaziantep 2-4 Şubat 2005-59