Osmanlı Tarihi ile ilgili Sorgularda Web Arama Motorlarının Türkçe Sonuç Kalitesinin Ölçeklendirilmesi Denemesi

Benzer belgeler
DİZİN. Not: Koyu harfle yazılan sayfalar ilgili terimin yoğun olarak geçtiği sayfaları göstermektedir.

INTERNET NEDİR? INTERNET İN TARİHÇESİ WEB SAYFALARININ UZANTILARI

Bilgiye Erişim Sistemleri Information Retrieval (IR) Systems. M.Fatih AMASYALI BLM 5212 Doğal Dil İşlemeye Giriş Ders Notları

sayıda soru için hiçbir ilgili belgeye erişemediklerinden soru başına erişilen ortalama ilgili belge sayıları düşüktür (1,5). Arama motorlarının

Aramanın Anatomisi 1

Performance Evaluation of Image Search Engines Based on the Number of Query Words

Web Sayfasında Google Analitik Kullanımı ve Kullanıcı Davranışlarının Belirlenmesi: İstanbul Ticaret Üniversitesi Kütüphane Web Sayfası.

TOPRAKTA PH TAYİNİ YETERLİLİK TESTİ RAPORU TÜBİTAK ULUSAL METROLOJİ ENSTİTÜSÜ REFERANS MALZEMELERI LABORATUVARI. Rapor No: KAR-G3RM

(Bilgisayar ağlarının birbirine bağlanarak büyük bir ağ oluşturmasıdır)

Gazi Üniversitesi Merkez Kütüphanesi

Üniversite Sıralama (Ranking) Sistemleri

Bilgi Erişim Performans Ölçüleri

LSI Keywords İle Sitenizin Sıralamasını Ve Trafiğini Arttırın

SEO Nedir? SEO = Pazarlama + Strateji

SEO ALANLARINA YAZILMASI GEREKENLER

VERİ MADENCİLİĞİ Metin Madenciliği

TANIMLAYICI İSTATİSTİKLER

Arama motoru: kuş gribinin etkileri

ÇEVRİM İÇİ VERİ TABANLARININ SEÇİMİ VE KULLANIMINDA KÜTÜPHANECİLERİN ROLÜ

SERVĠS KULLANIM KĠTAPCIĞI. Websiteniz için Arama Motoru Optimizasyon Merkezi

Tam metin ve Doktora Tezleri filitreleri Basit Arama seçeneğinde görüntülenmektedir.

Akademik Veri ve Performans Yönetim Sistemi. Kısa Tanıtım Kılavuzu

ISI Web of Knowledge EndNote Web Copyright 2007 Thomson Corporation

Bilimsel ve Teknik Dokümantasyon. Yrd. Doç.Dr. Özlem Bayram

AKILLI TATIL PLANLAMA SISTEMI

Veritabanı Uygulamaları Tasarımı

Açılıs Sayfası. Deneyimi

WEB ARAÇLARI VE UZAKTAN EĞİTİM CEIT357-4.HAFTA

Seo Eğitimi (300 Sattlik Eğitim) Seo. Genel Amaçları. Seo da Kullanılan Terimler. Nedir? Nasıl Çalışır? Nasıl Olmalıdır?

Sosyal bilimler alanındaki akademisyenlerin elektronik kaynak kullanımları: Engeller ve çözüm önerileri

Mahaya Bulmaca Sözlük 1.0

ODTÜ KÜTÜPHANESİ YENİ WEB SAYFASININ TASARIMI VE KULLANILABİLİRLİK ÇALIŞMASI

EndNote Web Hızlı Başvuru kartı

Google da Etkin Arama Yöntemleri. Eğitim Teknolojileri Destek Birimi

Web Sitesi/Sayfası/Dokümanı

BİLGİ ÜRETİMİ SÜRECİNDE DEĞER YARATAN UNSURLAR, 18 Aralık 2018, Bartın Üniversitesi

Performans değerlendirmenin belli aşamaları vardır. Bu aşamalar:

Google Görüntülü Reklam Ağı.Hedefleme

VERİ MADENCİLİĞİ (Web Madenciliği)

1:1 netbook senaryosu, Nº3

Admin. w w w. e n o c t a. c o m

Veri Toplama Teknikleri

Türkiye Haber Siteleri Reklam Performans Durum Raporu

evt

Web Madenciliği (Web Mining)

K U L L A N I M B İLGİLERİ

Birbirine bağlı milyarlarca bilgisayar sisteminin oluşturduğu, dünya çapında bir iletişim ağıdır.

Fırat Üniversitesi Hastanesi Dinamik Web Sayfası

Web Madenciliği (Web Mining)

Web Server Sunucu Loglarının K-Komşu Algoritması ile İ ncelenmesi

Dijital pazarlama bir satış yöntemi değil; ulaşılan sonuçları sayesinde satış artışı sağlayan, bir ilişkilendirme ve iletişim sürecidir.

ISL 201 Pazarlama İlkeleri. Doç. Dr. Hayrettin ZENGİN

ODTÜ Kütüphanesi Yeni Web Sayfasının Tasarımı ve Kullanılabilirlik Çalışması

İlk Sayfa Tıklanma Oranları Organik/Ücretli Reklam Analizi

ÇORLU TİCARET VE SANAYİ ODASI DIŞ PAYDAŞ ANKET ANALİZ RAPORU

GİRİŞ. Bilimsel Araştırma: Bilimsel bilgi elde etme süreci olarak tanımlanabilir.

Tablo 26. Kullanılabilir Gelire göre Sıralı %20 lik Grupların Toplam Tüketim Harcamasından Aldığı Pay

Bilgi Güvenliği Risk Değerlendirme Yaklaşımları

Smart Commerce Proje Teklifi

TEMEL İSTATİSTİK BİLGİSİ. İstatistiksel verileri tasnif etme Verilerin grafiklerle ifade edilmesi Vasat ölçüleri Standart puanlar

CELAL BAYAR ÜNİVERSİTESİ KÜTÜPHANE VERİTABANLARINA ÜNİVERSİTE DIŞINDAN ERİŞİM

Araştırma Önerisi ve Araştırma Raporu

ÜAS DA SUNULAN BİLDİRİLER KAPSAMINDA İMALAT İŞLETMELERİNİN ÜRETİM SORUNLARINA BAKIŞI

Doktor Web Tasarım ile sıfır hatada Dünya standartlarında web kalite politikasına uygun web sitesi oluşturabileceksiniz

Z Kuşağı ve Referans Hizmetlerindeki Değişim: İstanbul Ticaret Üniversitesi Kütüphanesi Canlı Referans Örneği (Online Chat) Arzu KARA

Apriori Algoritması. Konu İçeriği. Giriş. Tarihçesi. Apriori Nedir? Örnekler. Algoritma. Açıklama. Weka İle Kullanımı. Kaynakça.

Doğal Dil İşleme Nedir? Doğal Dil İşleme

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

KULLANIM KILAVUZU. VSP Teknoloji ile sıfır hatada Dünya standartlarında web kalite politikasına uygun web sitesi oluşturabileceksiniz

Siirt Üniversitesi Eğitim Fakültesi. Yrd. Doç. Dr. H. Coşkun ÇELİK Arş. Gör. Barış MERCİMEK

Beyhan KARPUZ, Uzman Kütüphaneci Karadeniz Teknik Üniversitesi 2016

EĞİTSEL İÇERİKLİ WEB SİTELERİNİN METİN TASARIM UNSURLARI AÇISINDAN İNCELENMESİ EXAMINATION OF THE EDUCATIONAL WEB SITES IN TERMS OF TEXT DESIGN

A. BIÇIME İLIŞKIN ANALIZ VE DEĞERLENDIRME

Arama Sonuçlarında Üst Sıralarda Olmak. Temel SEO Çalışması

Web Madenciliği (Web Mining)

İSTATİSTİK. Bölüm 1 Giriş. Ankara Üniversitesi SBF İstatistik 1 Ders Notları Prof. Dr. Onur Özsoy 4/4/2018

RGKLM-2015/02 BAL NUMUNESİ (HMF-NEM) LABORATUVARLAR ARASI KARŞILAŞTIRMA(LAK) TESTİ SONUÇ RAPORU

Koordinat Dönüşümleri (V )

Bilgi Merkezi Web Siteleri

KAREKODLU ÇEK RAPORU NASIL OKUNUR?

Aydın MENEK

Üstün Zekalı Çocukların. Tanılanması

Yapı Malzemesi Enformasyon Sistemi - YMES. Y.Doç.Dr. Elçin TAŞ Y.Doç.Dr. Leyla TANAÇAN Dr. Hakan YAMAN

SPSS E GİRİŞ SPSS TE TEMEL İŞLEMLER. Abdullah Can

Increase of Indexed Page in Google Search Engine

İnteraktif Pazarlama Stratejimiz.

2 SEO YOL HARITASI 21 Seo Çalışmasının Aşamaları 21 Ön Analiz Ve Araştırma 21 Planlama 23 Çalışmanın Uygunlanması Ve İzlenmesi 24

SUDA PH TAYİNİ YETERLİLİK TESTİ RAPORU TÜBİTAK ULUSAL METROLOJİ ENSTİTÜSÜ REFERANS MALZEMELERI LABORATUVARI. Rapor No: KAR-G3RM

A/B TESTING. Mert Hakan ÖZLÜ N

Google Akademik Kullanım Semineri. Prof. Dr. Bektas TEPE

E-Bülten. Bilgi Merkezi Araç Çubuğu nu (Toolbar) yükleyebilirsiniz. Bilgi Merkezi Araç Çubuğu nun Avantajları

BÖLÜM 13 HİPOTEZ TESTİ

Manisa Celal Bayar Üniversitesi Yazılım Mühendisliği Bölümü YZM Veri Yapıları Dersi. Proje#2

DSİ kapsamında oluşturulan dağınık durumdaki verilerinin düzenlenmesi, yeniden tasarlanarak tek bir coğrafi veri tabanı ortamında toplanması,

En Gözde Üniversiteler2014

ÖRNEKLEME TEORİSİ 1/30

İÇİNDEKİLER KISIM I SİSTEMATİK YAKLAŞIM

Merkezi Yığılma ve Dağılım Ölçüleri

ÜNİBİLGİ 26. Üniversitemizin yeni Kütüphane Otomasyon Programı olan e-libs in kullanımını tanıtacağız.

Transkript:

Osmanlı Tarihi ile ilgili Sorgularda Web Arama Motorlarının Türkçe Sonuç Kalitesinin Ölçeklendirilmesi Denemesi Engin Cihad Tekin Öz Çalışmamız Osmanlı tarihi ile belli kategorilerde rastgele seçilen 20 sorgu kelime veya kelime öbeğinin çeşitli parametreler kullanılarak Google ve Yandex arama motorlarında sonuç kalitesini ölçecek şekilde bir skorlama ortaya çıkarmayı hedeflemektedir. Bu şekilde her iki arama motorunun eşit koşullarda sonuç kalitelerinin ölçümleri yapılmaya çalışılmıştır. Anahtar Kelimeler Bilgi Erişim Kalitesi, Google, Yandex, Osmanlı Tarihi Giriş İnternetin hayatımıza girmesi ile birlikte internetin büyüyen içerik hacminde aranılan bilgiye erişmek sorunu ortaya çıkmıştır. Bu noktada en basit şekliyle arama motorları 1990 ların ikinci yarısından itibaren hayatımıza girmeye başlamıştır. İnternetin geometrik büyümesi ile birlikte arama motorlarının önemi artmaya başlamış ve 2000 li yıllar arama motorlarının altın yılları olmuştur.1998 yılına kadar mevcut bilgi erişim algoritmaları ile kullanıcılara internetteki bilgiyi ulaştıran Yahoo, Excite, Altavista gibi arama motorları, 1998 den itibaren Google arama motoru ve arama algoritmasının yarattığı devrim ve donanım teknolojilerindeki gelişmeler ile internetin büyümesinin ve bilginin kontrol edilebilmesi daha kolaylaşmıştır. Google ın sitelerinin gücünün birbirilerine verdikleri referanslara ve atıflara bağlı olduğu temelinde başlayan algoritması zamanla, farklı etki faktörlerinin etkinliğinin artması, ontolojik etkiler ve topolojik sistemlerin de eklenmesiyle büyüyen internet ortamına uyum sağlamıştır ve sürekli geliştirilmektedir. Web arama motorları farklı bağlamlardan ( kişisel, iş veya bilimsel vb), bilgi arama da önemli hale gelmiştir. Araştırma soruları tatmin edici bir şekilde kullanıcı beklentilerini arama motorlarına uygun olarak nasıl düzenleyeceği ve arama motoru kalitesin tam bir resmini alabilecek hangi ölçülerin kullanılabileceğini cevaplayamamaktadır. Buna ek olarak kalite güvencesi kullanıcı tatmini ve sadakatini sağlayacak önemli bir etkidir. Bu da reklamdan gelecek gelirleri ve pazar payını korumak için şarttır. Kalite ölçümü arama motorlarının potansiyel gelişimlerini tanımlamaya yardım edecektir ( Lewandowski,2007, s.2 ) Burada, web bilgi erişimi ile geleneksel bilgi erişimi arasındaki farkları ortaya koymak gereklidir. Geleneksel bilgi erişimi, daha küçük, kontrollü ve birbirleri arasındaki bağlantı kurulmamış belgeler ile uğraşırken, web bilgi erişimi dünyanın en geniş ve bağlantılanmış belgeleri arasında arama yapmaktadır.(langville ve Meyer, 2006, s.5 ) Langville ve Meyer e göre web bilgi erişimi geleneksel bilgi erişim teknikleri üzerine inşa edilmişti. Buna göre web: Çok büyük, dinamik, kendine organize edilen ve birbirleri ile bağlantılıdır(langville ve Meyer, 2006 s.9). Broder e göre arama motorlarında yapılan bilgi arama davranışları içerisinde sorgu çeşitleri 3 bölüme ayrılır:

1- Bilgiye ait: Belli bir konuda bilgi arayışıdır. Kullanıcı ilgili bir kaç sayfaya bakmak ister. 2- Gezinmeye ait: belli bilinen bir ana sayfayı aramaktadır ve kullanıcı doğrudan bu sayfaya ulaşmak ve tek ilgili sonuç ister. 3- İşe yönelik: arama işlemini tamamlamak için belli bir web sitesi arar. Kullanıcı bir veya ilgili diğer sonuçlara bakar, işlem sonucunda hedeflenen bir ürün satın alınabilir ve bir dosya internetten yüklenebilir. Web tabanlı ihtiyaç duyulan bir hareketin niyetini gösterir.( Broder,2002, s.3) Arama motorlarının serbest şekildeki sorguya karşılık aldığı hareket ise 5 çeşit adım ile tanımlanmıştır: 1- Sorgudan gelen belli terim ve cümleleri tanımlamak 2- Sorgudan durma kelimelerini çıkarmak 3- Sorgudaki terim ve cümlelerin istatistiksel öneminin hesaplanması ve veritabanındaki her belgeye göre tüm terim ve cümlelerin karşılaştırılması. 4- Sorguyu karşılayan en yüksek ihtimaldeki belgelerin geri getirimi 5- Belge içindeki sorgu terimlerinin sayılarına bağlı her erişilmiş belgenin sıralaması ve her sorgu teriminin istatiksel önemi. ( Loose, 1999, s 14 ) Veritabanlarının üretimi sırasında belgelerin seçim süreci ( belgelerin kaynağı olarak ), önemli bir kalite etkisi olarak görülebilir ama arama motorları bağlamında bu süreç sıralama sürecinde yeniden düzenlenilir. Böylece, bir kütüphane bağlamından gelen belgelerin seçimindeki klasik yargı arama motorlarına uymamaktadır. Sadece özelleştirilmiş arama motorları kendi dizinlerini yaratmak için kaliteli kaynak seçimine dayanırlar. Önemli nokta arama sonuçlarının kalite ölçümlerinin belgede gösterilen bilgiyi güvenilirlik ve doğruluk olarak kısıtlı bir görüş çıkarmasına olanak verir. Bilinen örnek olarak, Wikipedia da gelen belgeleri çoğunlukla arama motorları tarafından yüksek sırada değerlendirilirler ama bu durum Wikipedia sonuçlarının güvenilir olup olmadığını göstermeye yeterli gelmemektedir( Lewandowski, 2007, s.4 ) Arama motorlarının sonuç sıralamalarındaki en çok kullandıkları iki algoritma modeli vardır. İki model de sitelerin birbirilerine verdikleri bağlantıları ve siteleri gücünün bunlara etkisi üzerinedir. Kleinberg tarafından yaratılan HITS algoritması( Kleinberg,1998,s.3) ve Google in kurucuları Sergey Brin ve Larry Page tarafından oluşturulan Page Rank ( Brin ve Page, 1998 )tamamen bu mantığa dayalıdır ve modern web bilgi erişiminin arama motorlarına uygulanmasında temel teşkil etmektedirler. Lakin sistem tamamen internet sitelerinin gücünün başka internet siteleri ve birbirleri ile olan bağlantılarının varlığıyla ve sayısı ile doğru orantılı dolduğu varsayımına dayalı olduğu için kalite ikinci planda bırakılmaktadır. Buna rağmen sorgu sıralamalarını etkileyen tek faktör de bu değildir ve diğer faktörler de belli oranlar da güçlüdür. Ama tüm çalışmalara rağmen PageRank algoritmasını etkileyen faktörler ve etki dereceleri ticari bir sırdır. Arama motoru optimizasyonu adı altında yapılan çalışmalar da sadece varolan bilgi aracılığıyla istenen siteleri arama sonuçlarında daha yüksek sırada çıkmasının manipüle edilmesi çalışmasıdır. Lewandoswki, Google tipi bir arama motorunun sonuç kalitesini en çok etkileyen 7 faktörü açıklamaktadır. 1- Hiyerarşi: daha yüksek bir hiyerarşi içeriisndeki belgeler tercih edilir. 2- Bağlantı popülerliği: bir belgenin kalitesi veya otoritesi web grafiği içerisindeki kendisine verilen bağlantılarla ölçülür. 3- Tıklama popülerliği: Çok kullanıcı tarafından tercih edilen belgeler 4- Güncelleme sıklığı : eski belgelere göre tercih edilir. 5- Belge uzunluğu: Belli bir mesafe uzunluğundaki belgeler

6- Dosya formatı: HTML dilinde yazılan belgeler pdf ve doc türlerindeki belgelerre göre tercih edilir. 7- İnternet sitesinin büyüklüğü: daha büyük internet sitelerindeki belgeler tercih sebebidir.( Lewandowski, 2007, s.4) Bir bilgi erişim sisteminin performansının ölçümünde iki klasik ölçü kabul edilmektedir: kesin isabet ( precision) ve geri çağırma ( recall ). Precision yöntemi sadece ilgili sonuçları üreten bir bilgi erişim sisteminin kabiliyeti ölçer. Precision sistem tarafından erişilen ilgili belgelerin sayısı ve erişilen toplam sayısı arasında oranla belirlenir. Bir çok durumda binlerce sonuca erişilebileceği için bunlar üzerine çalışmak zordur bu yüzden kesme oranları ( cutoff rates ) kullanılır.(lewandowski,2007, s.10. Zaten arama motorları da kullanıcıların sadece ilk 20 sonuca baktıklarını bilerek sıralama algoritmalarını ve çalışma güçlerini bu ilkl 20 sonucun geliştirilmesi üzerine verirler.( Sangville ve Meyer, 2006, s 142) Geri çağırma ise, sistem tarafından erişilen ilgili belger ve verilen sorgu için ilgili tüm belgelerin sayısının oranıdır. Web arama alanında toplam belge sayısı web deki tüm ilgili belgeleri göstermektedir(lewandowski, 2007,s 10) Bir arama motorunun dizin kalitesi birçok şekilde gösterilebilir. İlk olarak, dizin kapsayıcı olmalı yani web in geniş bir kısmını kapsamalıdır. Tam kapsayıcılık önemli iken, tamamen kapsayıcı bir hal alan bir web arama motoru web in her bölgesi için en iyisi olmaya yeterli değildir. Örneğin, Almanca içerik arayan bir kullanıcı, genel olarak web in %80 ini kapsayan bir arama motorundan yeterince tatmin edici bir sonuç elde edemiyebilir. Bu açıdan ülke çapında web arama motorları araştırmalar açısından çok önemlidir. Buna bağlı bir diğer dizin kalitesi faktörü de güncelliktir. (Lewandowski, 2007, s 15). Dizin güncelliği sorgu sonuçlarında güncel sonuçların gelmesi de aynı şekilde kapsayıcılık özelliğinin vazgeçilmez bir ekidir. Literatür Griesbaum, 2004 tarihli çalışmasında (Griesbaum, 2004) kendisinin 2002 de yaptığı diğer çalışmayı devam ettirecek şekilde bir çalışma da bulunur. Griesbaum, Google, Lycos ve Altavista yı ele alacak bir çalışma yapar. Algoritmik değişlikler ve dizin in büyümesi bu araştırmanın sonuçlarının yenilenmesine ihtiyaç duyulduğunu da göstermektedir. Daha yeni bir çalışmada Spink ve diğerleri (2006), Askjeeves, Google, Yahoo ve Msn arama motorları üzerine yaptıkları çalışmada her arama motoru için ilk 10 sonucu değerlendirmişlerdir. Bu çalışma nisan 2005 de 10316 sorgu ve temmuz 2006 da 12570 sorgu üzerinden değerlendirilmiştir. Buna karşılık overlap ( çakışma ) değerleri yapan çalışmalarda bulunmuştur. (Bharat & Broder, 1998). Başka bir çalışmada ise Lewandowski (2004) ise web belgelerinin eşit tarihte karşılaştırmaları yapılarak ortaya konmuştur ve bu çalışmada da rastgele seçilen 50 sorgu kullanılmıştır. Lewandowski nin kullandığı standart erişim etkinlik test modeli şu şekildedir: 1- En az 50 sorgu kelimesi seç ( kütük dosyalar, kullanıcı çalışmalar veya benzeri kaynaklardan ) 2- Önemli birkaç arama motoru seç 3- Kesme sayısı ile en üst sorgu sonuçlarını belirle 4- Arama motorlarını anonimize et ve sonuç yerlerini randomize et. 5- Kullanıcıları sonuçları değerlendirmesine izin ver. 6- Kesin sonuçlar skorlarını kullan. 7- Kesin sonuç skorlarını hesapla 8- Erişim ( recall ), skorlarını hesapla veya tahmin et.

( Lewandowski, 2009, s 14) Metodoloji Yine Lewandowski ye göre arama motoru kullanıcınılarının davranışlarını ölçmek için veri toplama metodları 4 şekildedir. 1- Kullanıcı araştırması Avantajları : Kullanıcı kendini ifade eder. Demografik bilgiler münkü ve detaylı sorular vardır. Dezavantjları: Kullanıcılar yalan ve manipulatif bilgi verebilir. 2- Laboratuvar çalışması: Avantajları : Kullanıcı araştırması ile birleştirilebilir ve detaylı çalışma yapılabilir. Dezavantajları : Küçük örneklemler ve zaman ve para kaybı yaratan çalışmalar 3- Canlı ve hedef aramalar ( live ticker ) Avantajları : Büyük örneklem analizi, zaman bağımlı çalışma sağlar. Dezavantajları: Demografik bilgiler yok, arama oturumları ile ilgili bilgi yok. 4- Süreç kütük analizi Avantajları: Arama davranışları ile ilgili detaylı bilgiler barındırır. Zaman bağımlı analiz ve oturum analizleri yapılabilir. (Lewandowski,2007,s.6) Bilgiye dair ( informational ) sorgular, tamamen sorgu konusu hakkında toplanan bilgiye ilişkin kullanıcı hedefine odaklanır. Bu kategori soruları cevaplama ile ilgili hedefleri içerir. Bu sorular kullanıcının aklında oluşan ve tavsiye aradığı ve bir konu hakkında basitçe öğrenmek istediği doğrudan olmayan talepleri gösterir. Bu şekilde çoğu sorgular bilim, tıp, tarih ve haber gibi doğrudan sınırlandırılamayan sorgulardır. Örneğin Rusya nın son çarı sorgusu aslında kapalı olarak Rusya nın son çarı kimdir sorgusunu getirir( Rose, 200, s.12 ). Bizim arama motorlarına gönderdiğimiz sorgularda buna benzer kapalı cevaplar da açık cevap olarak kabul edilmiştir. Çalışmamız tarih araştırmacılarına göre değildir. Tarih araştırmacıları konularında bilgi profesyoneli olup, kaynakları seçme ve arama konusunda uzmandır. Birinci nin tarihçilerin bilgi gereksinimleri konusunda yaptığı çalışmada, tarihçilerin arama davranışlarında temel kelimelerle değil, birinci tercih olarak kitap ikinci tercih olarak arşiv belgesi kullanıldığını göstermiştir( Birinci, 2007, s.133 ). Bu noktada bizim çalışmamız, konusundaki bilgi profesyonellerini değil, televizyon, gazete, dergi gibi haber kaynaklarından gelen kelime veya kelime gruplarından etkilenebilecek ve aniden arama motorunda arama yaparak ani bilgi ihtiyacını giderecek kişilerin eriştikleri sonuçların kalitesi üzerinedir. Çalışmamız tarih alanındaki sorguların iki arama motorundaki kalitesini ölçmeye yönelik olduğu için, Osmanlı tarihi ana başlık olarak seçilmiş, Osmanlı tarihi ile ilgili sorgu kelimeleri belirlenirken, 4 ayrı alt başlıkta sorgu kelimeleri kümelenmiştir. 1- Olay 2- Terim 3- Kişi/biyografi 4- Savaş (Külcü ve Tekin, 2013, s.94)

Çalışmamız da belirlenen sorgu kelimeleri ile eşit koşullarda Google ve Yandex arama motorlarına gönderilmiş ve erişilen ilk 10 sonuç kesme sayısı olarak belirlenmiştir. Bizim çalışmamızda yukarıda Lewandowski nin uyguladığı test modelini şu şekilde değiştirmeye çalışacağız. 1- Tek konu başlığını alt başlıklarla kümele 2- Her bir kümeden eşit olmak üzere en az 20 sorgu kelimesi seç 3- Sorgular için üst kesme sayısı belirle 4- Arama motorlarını seç ve sorguları gönder 5- Sorguları site kategorileri tablosuna göre skorla 6- Gelen skorları, karşılaştırma tablosunda belirlenen parametrelerler tekrar skorla 7- Kesin erişimi skorlarını hesapla Çalışmamızda her sorgu erişimi için kalite skorunun çıkarılmasında etkin olabilecek 8 ayrı parametre seçilmiştir. 1- Alan adı veya URL 2- Konu Başlığı 3- Metin için duyarlılığı 4- Metin içindeki yeri 5- Web/HTML sayfası 6- PDF / DOC vb formatlar 7- Metin içi frekansı 8- Site kategorisi İlk 7 parametrenin sonuç kalitesini etkilemesini ölçmek için bir ölçek kullanılmıştır: Diğer kriterler Puanlama Ölçekleri Alan adı veya URL Metin için konu Duyarlığı Konu başlığı Metin içindeki yeri Web/HTML Pdf/Doc vd Frekansı 0-20 1 1 1 1 1 1 1 20-40 2 2 2 2 2 2 2 40-60 5 4 4 4 4 5 4 60-80 10 7 7 7 7 10 7 80-100 15 10 10 10 10 15 10 Tablo 1. Her iki arama motorunun karşılaştırılması için kullanılan ölçek Site kategorisi için öncelikle ayrı bir ölçek kullanılmış ve çıkan sonuçlar diğer 7 parametre ile birleştirilmiştir. Web arama motorlarındaki sonuç kalitesini etkileyen en önemli faktörlerin başında sonuçların erişildiği sitenin kalitesi ve güvenilirliliğidir. Güvenilir siteler ve site adres uzantıları gerekse de büyüklükleri ile diğerlerinden ayrılırlar ve arama motorları tarafından daha güvenilir olarak

tanımlanırlar. Arama motorlarının bu tanımlamanın ölçüsü konusunda detayları ve ölçekleri gizlilik taşıyan bilgi içeren konulardır. Tablo 2. Siteler kategorize edilirken güvenilirlik sırasına göre tablo 2 de gösterilen 10 ayrı bölüme ayrılmıştır. Her bir sorgu için Google ve Yandex arama motoruna ayrı ayrı oturum yapılmış, çıkan sonuçların kesme sayısı olarak 10 olmak üzere 2 ayrı arama motorunda toplam 400 ayrı sonuç ve bunların eriştiği site değerlendirmeye tabi tutulmuştur. 400 ayrı sonucun hiçbirinde akademik sitelerden, yayınlardan ve devlet sitelerinden gelen bir sonuç içermiyor. Aynı şekilde devlet sitelerinden hiçbirinden gelen sonuç ilk 10 sorgu sonucunda yer almamaktadır. Sonuçların tamamına forum ve sözlüklerden gelmektedir. Veri Toplama ve Analiz Çalışmamızın ilk aşaması olarak Osmanlı tarihi nde belirlenen 4 alt başlıkta her bir başlık için seçilen 20 sorgu kelimesi iki ayrı arama motorunda ilk 10 sonuç için önceden belirtildiği gibi 400 sorgu elde edilmiştir. Bu sorgular aşağıdaki belirtildiği şekilde değerlendirilmiştir. Bir bilgi erişim tekniği olan Latent Semantic indexing ( Sangville ve Meyer 6, 2006, s 6) içerisinde yer alan gizli semantik model de kelimeler seçilirken dikkat edilmiştir. Sonuçlar içerisinde savaşmuharebe gibi katli-öldürülmesi gibi değişimler de sonuçlarda eşit sayılmıştır. Bunun dışında ahdname ve ahidname kelimelerinde de aynı kural uygulanmıştır. Metin içi frekans için aynı kelime veya kelime öbeği için 2 veya daha fazla geçmesi şartını taşımaktadır. Çünkü metin içerisinde 2 veya daha fazla geçişi, o kelimenin ve kelime öbeğinin metinle ilgili olma olasılığı arttırır. Serbest sorguda sıralamayı etkileyen 3 değişken vardır. 1- Veritabanınındaki arama teriminin frekansı 2- Bir kayıt içindeki arama teriminin frekansı 3- Bir kayıt içindeki arama terimlerinin sayısı ( Loose, 1999, s.12 )

Metin içindeki yeri başlığının değerlendirilmesinde metnin büyük harf/küçük harf, metin içi başlıkta yer alması ve farklı kalınlıkta veya boyutta yazılması değerlendirilmiştir. Pdf/doc bağlığı altındaki değerlendirmede ise Pdf veya doc dosyalarının daha sistemli ve düzenli hazırlandığı varsayımından yola çıkarak değerlendiröeye tabi tutulmuştur. 400 sorgu içerisinde sadece 1 tanesinde pdf/ doc formatında sonuca erişilmiştir. Tablo 2. Site kategorisi puanın tespiti ve hesaplama ölçeği Tablo 3. Site kategorisi hesaplamasında 10 sorgu için kategori dağılımı Site kategorisini değerlendirildiğimizde, en yüksek 54 puan ile 3.Selim sonucu birinci sırada en düşük liva kelimesi ise 3 puan ile en düşük puanı almış olduğunu görürüz. Bu noktada en yüksek Google 400 sorgu için toplam 629 puan almış, Yandex ise 400 sorgu için 389 puan almıştır. Tüm sorgular bazında baktığımızda Google için her sorgu için ortalama puan 1,6 olurken, Yandex de bu

Islahat 2.osmanın Küçük Celali Karlofça Antl. Aşar Vergisi Ahdname Devşirme Kethüda Liva Merzifonlu 2.Abdülha 3.Selim Piri Reis Ankara savaşı İkinci Kosova Niğbolu Rodos'un İnebahtı oran 0,98 dir. Yani puanlama kriterlerine yerleştirdiğimizde ise Google da sonuçların Forum, sosyal medya ve sözlükler arasında dağıldığını, Yandex de ise en düşük puan olan sosyal medya ve forumların altına düşmektedir. Bu şekilde normal de tam sonuç için 10 sorgu için 80-100 puan arası olması gereken tam sonuç hiçbir sorguda sağlanamamıştır. Buna göre sorgu kalitesi parametrelerine etki edecek puanlar referans ölçeğe göre incelendiğinde 5 ile 15 arasında seyretmiştir. Aynı şekilde ortalaması Google için 10,5 puan ve Yandex için 7,5 puan olarak hesaplanmıştır. SİTE KATEGORİ PUANLARI Google Yandex 53 46 50 54 52 25 26 32 37 36 31 20 20 21 33 36 42 22 17 16 18 17 14 21 33 41 24 21 12 14 20 20 20 17 16 14 24 3 Tablo 4. Site kategorileri puanlarının dağılımı Tablo 5. Google Sonuç kalitesi parametreleri ve skor tablosu Tablo 5 ü incelediğimizde Google için sonuç kalitesi verilerine ulaşmaktayız. Tablo 1 de kullanılan ölçekte her bir sorgu ilgili/ilgisiz karşılığı 10 veya 0 puan olarak değerlendirilmiştir. 10 sorguda ilgili ise

100 puan almış bu kalite parametrelerindeki puan ölçeğine bakılarak karşılığı skorlamaya dahil edilmiştir. 400 sorgu için bu işlem yapılmış ve karşılığı bir skora erişilmiştir. Bu skor her sorgu kelime veya kelime öbeği için toplam alanında belirtilmiştir. Tablo 6.Yandex Sonuç kalitesi parametreleri ve skor tablosu Tablo 5 de yapılan ve açıklanan işlemin aynısı Yandex arama motoru için yapılmış ve tablo 5 de gösterilmiştir. Sonuç Toplam 400 sonucun birkaç tanesi dışında hiçbirinde akademik site ve devlet sitesi sonuçlarda yer almıyor. Osmanlı tarihi ile ilgili konularda öncelikle Türk Tarih Kurumunun sitesinin ilk 10 da bile yer almaması ayrıca inceleme konusu olmalıdır. 400 sorgu içerisinde sadece 1 tanesinde pdf/ doc formatında sonuca erişilmiştir. Her iki arama motorundan elde edilen verilerle çıkan skorlar incelendiğinde Google da 20 sorgu için skor ortalaması 100 üzerinden 59,8 olurken, aynı puan Yandex arama motorunda ise bu skor 63,8 olmuştur. Google da en düşük skor liva kelimesinde 12 olurken en yüksek puan 9 ayrı sonuçta 75 olmuştur. Aynı durum Yandex arama motorundaen düşük skor 41 puan ile Piri Reis kelime öbeğinde olurken, 7 ayrı kelimede 75 olmuştur.

GOOGLE YANDEX Islahat fermanı 75 75 2.Osman'ın katli 56 54 Küçük Kaynarca 75 70 Celali İsyanları 70 70 Karlofça Antl. 70 70 Aşar Vergisi 75 70 Ahdname 75 75 Devşirme 75 75 Kethüda 26 60 Liva 12 58 Merzifonlu Kara Mustafa 75 47 2.Abdülhamid 70 75 3.Selim 75 75 Piri Reis 22 41 Ankara savaşı 75 75 İkinci Kosova 65 70 Niğbolu Savaşı 65 70 Rodos'un Fethi 65 70 İnebahtı Savaşı 75 75 Tablo 7. Google Yandex Karşılaştırma tablosu Tablo 6 da gördüğümüz sonuç tablosunda ise sorgular bazında baktığımız da ise 20 sorgu kelimesinden 4 tanesinde Google ın yüksek puan aldığını 7 tanesinde Yandex in üstünlüğü vardır. Kalan 9 sonuçta ise eşit puan göze çarpmaktadir. Arama Motorları Performans GOOGLE YANDEX 80 70 60 50 40 30 20 10 0

Kaynakça Birinci, H.G.(2007), Tarihçilerin Bilgi Gereksinimleri ve Bilgi Kullanımları, Değişen Dünyada Bilgi Yönetimi Sempozyumu 24-26 Ekim 2007 Broder, A. (2002), A Taxonomy of Web Search, SIGIR Forum, Fall 2002, Vol. 36, No.2 Brin,S. Ve Page,L. (1998), The anatomy of a large-scale hypertextual Web search engine, http://zoo.cs.yale.edu/classes/cs426/2012/bib/brin98theanatomy.pdf adresinden 20.12.2013 tarihinden erişildi. Griesbaum, J. ( 2004), Evaluation of three German search engines: Altavista.de, Google.de and Lycos.de, http://eprints.rclis.org/5746/1/paper189.html adresinden 11.12.2013 tarihinde erişildi. Kleinberg, J.M. (1998), Authoritative Sources in a Hyperlinked Environment, http://www.cs.cornell.edu/home/kleinber/auth.pdf adresinden 19.12.2013 tarihinde erişildi. Külcü,Ö. Ve Tekin, E.C.(2013),Osmanlı tarihi ile ilgili araştırmalarda Wikipedia ve Vikipedi sanal ansiklopedilerinin sonuç kalitelerinin karşılaştırılması, Ünak 2013 Konferansı, bildiri özetleri kitabı Lewandowski, D. ( 2007 ), Web Searching: A Quality Measurement Perspective, eprints.rclis.org/9595 adresinden 13.12.2013 tarihinde erişildi. Lewandowski, D. (2009), measuring the quality of web search engines, http://www.bui.hawhamburg.de/fileadmin/user_upload/lewandowski/vortraege/tartu2009a_lewandowski.pdf adresinden 29.11.2013 tarihinde erişildi. Loose, Robert M.(1999), Measuring Search Engine Quality and Query Difficulty: Ranking with Target and Freestyle, http://www.ils.unc.edu/~losee/paril.pdf adresinden 05.12.2013 tarihinde erişildi. Rose, Daniel ( 2004 ), Understanding User Goals in Web Search, http://facweb.cs.depaul.edu/mobasher/classes/csc575/papers/www04--rose.pdf adresinden 19.11.2013 tarihinde erişildi. Sangville, A ve Meyer, Carl.D.(2006), Google s Page Rank and Beyond: The Science of Search Engine Rankings, Princeton University Press