3. UYGULAMA - ORTAK ATIF ANALİZİ İLE BENZERLİK TAHMİNİ. Fırat Üniversitesi-Elazığ



Benzer belgeler
Web Server Sunucu Loglarının K-Komşu Algoritması ile İ ncelenmesi

VERİ MADENCİLİĞİ önemsiz olmayan, gizli, önceden bilinmeyen, potansiyel olarak kullanışlı

Web Madenciliği (Web Mining)

Web Sayfasında Google Analitik Kullanımı ve Kullanıcı Davranışlarının Belirlenmesi: İstanbul Ticaret Üniversitesi Kütüphane Web Sayfası.

ODTÜ BLOG SERVĐSĐ ve BLOG HAZIRLAMA

Sosyal Ağlar ve Çevrimiçi Kütüphane Katalogları: OPAC 2.0

Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri. Mustafa Kemal Üniversitesi

Doku ve Hastalıklara Özgü Büyük Ölçekli Biyolojik Ağları Oluşturul ası ve Analizi

VERİ MADENCİLİĞİ Metin Madenciliği

VERİ MADENCİLİĞİ VE SOSYAL AĞ ANALİZİ ARAŞTIRMA LABORATUVARI

Yazılım Mühendisliği 1

HÜR VE KABUL EDİLMİŞ MASONLAR DERNEĞİ GİZLİLİK POLİTİKASI

Dijital pazarlama bir satış yöntemi değil; ulaşılan sonuçları sayesinde satış artışı sağlayan, bir ilişkilendirme ve iletişim sürecidir.

seozeo data-driven SEO agency

VERİ MADENCİLİĞİ (Web Madenciliği)

Fırat Üniversitesi Hastanesi Dinamik Web Sayfası

KULLANILABİLİRLİK TESTLERİ VE UYGULAMALARI

BAŞAK ÇOBAN MERVE SARITAŞ AZİME AKÇAÖZ BÜŞRA AYDEMİR

Bibliyografik Evrenin Gelişimi ve Kütüphanelerde Bağlı Veri Yaklaşımları

Petrol ve İthalat: İthalat Kuru Petrol Fiyatları mı?

Web Madenciliği Teknikleri

Algoritma Geliştirme ve Veri Yapıları 9 Ağaç Veri Modeli ve Uygulaması. Mustafa Kemal Üniversitesi

(IEL) Online. Gazi Üniversitesi Merkez Kütüphanesi

Yrd. Doç. Dr. Gökçe BECİT İŞÇİTÜRK. Gökçe BECİT İŞÇİTÜRK 1

ODTÜ Kütüphanesi Yeni Web Sayfasının Tasarımı ve Kullanılabilirlik Çalışması

VERİ MADENCİLİĞİNE BAKIŞ

VERI TABANLARıNDA BILGI KEŞFI

Graf Veri Modeli. Düğümler kümesi. Kenarlar kümesi

VERİ KAYNAKLARI. Bilgi sisteminin öğelerinden biride veri

WEB ARAÇLARI VE UZAKTAN EĞİTİM CEIT357-4.HAFTA

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

Kurumsal İçerik ve Bilgi Yönetimi Kapsamında Web 2.0 Teknolojileri: Enterprise 2.0

KULLANICI REHBERİ. Sınırsız Bilgiye Kesintisiz Erişimin adresi

LOGO İş Zekası çözümü ile kurumsal raporlama ve analizler. Cem Yılmaz Genel Müdür LOGOBI Yazılım

Kütüphane Kullanıcıları için İçeriğin Zenginleştirilmesi II

KÜTÜPHANE DEKİ KİTAPLARI ARAŞTIRMA KILAVUZU

Elektronik Yayıncılık

KABA KÜME TEORİSİ (Rough Set Theory) Dr. Sedat TELÇEKEN

Mobil Cihazlardan Web Servis Sunumu

İnternet Nedir? 1. İnternet Teknolojileri. İçerik. İnternet Nedir? 2. Ders 1

İnternet Teknolojileri. Ders 1


Webometrics (İspanya, Cybermetrics Laboratuvarı) NTU (HEEACT) (Tayvan, National Taiwan Üniversitesi)

Yapı Malzemesi Enformasyon Sistemi - YMES. Y.Doç.Dr. Elçin TAŞ Y.Doç.Dr. Leyla TANAÇAN Dr. Hakan YAMAN

WordPress ile Web Sayfası Tasarımı

Gazi Üniversitesi Merkez Kütüphanesi

Harmanlanmış Bilgisayar Dersinde Öğrencilerin Sınav Günü İnternet Hareketliliği

Web Madenciliği (Web Mining)

İLİŞKİSEL VERİTABANLARI

1. Oracle Data Miner 11g Release 2 Kurulumu Aşamaları

idealonline Elektronik veri tabanı tanıtımı

Uzaktan Algılama Uygulamaları

Kılavuzu ; bir ürün veya sistemin kullanımıyla ilgili açıklamaların olduğu dokümantasyon olarak tanımlayabiliriz.

Adım Adım Kılavuzu. 1. Adım. 2. Adım. 3. Adım. 4. Adım. 5. Adım. 6. Adım

Veri Ambarından Veri Madenciliğine

İSTANBUL TEKNİK ÜNİVERSİTESİ ELEKTRİK-ELEKTRONİK FAKÜLTESİ. AKILLI FİYAT ARAMA MOTORU TiLQi.NET

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Elsevier ClinicalKey Smarter Search for Faster Answers

OLGUN ÇELİK A.Ş. GİZLİLİK POLİTİKASI

ODTÜ KÜTÜPHANESİ YENİ WEB SAYFASININ TASARIMI VE KULLANILABİLİRLİK ÇALIŞMASI

Dijital Dönüşüm Adımları

Akdeniz Üniversitesi Mühendislik Fakültesi Bilgisayar Mühendisliği Bölüm Tanıtımı

MOLDOVA SUNUMU Dr. Vasile CRETU Yüksek Yargı Kurulu Üyesi

(Bilgisayar ağlarının birbirine bağlanarak büyük bir ağ oluşturmasıdır)

E-Bülten. Bilgi Merkezi Araç Çubuğu nu (Toolbar) yükleyebilirsiniz. Bilgi Merkezi Araç Çubuğu nun Avantajları

VERİ MADENCİLİĞİ (Birliktelik Kuralları) Yrd.Doç.Dr. Kadriye ERGÜN

Autodesk Inventor 2012 Yenilikler

Türkiye Barolar Birliği internet sitesi

Birbirine bağlı milyarlarca bilgisayar sisteminin oluşturduğu, dünya çapında bir iletişim ağıdır.

2.1 Gri Düzey Eş Oluşum Matrisi ( GLCM) Gri düzey eş oluşum matrisi Haralick tarafından öne sürülmüştür [1]. Đstatistiksel doku analizi yöntemidir.

5651 ve 5070 Sayılı Kanun Tanımlar Yükümlülükler ve Sorumluluklar Logix v2.3 Firewall. Rekare Bilgi Teknolojileri

MIKROSAY YAZILIM ve BİLGİSAYAR SAN. TİC. A.Ş

Onur ELMA TÜRKIYE DE AKILLI ŞEBEKELER ALT YAPISINA UYGUN AKILLI EV LABORATUVARI. Yıldız Teknik Üniversitesi Elektrik Mühendisliği

Sosyal Ağlar ve Kütüphaneler. Tuba Akbaytürk Çanak

3. sınıf. Bilgisayarla kataloglamanın doğuşu gelişimi ve bugünkü durum ele alınmaktadır. Bu derste

ÜNİBİLGİ 26. Üniversitemizin yeni Kütüphane Otomasyon Programı olan e-libs in kullanımını tanıtacağız.

MYO Öğrencilerinin Facebook Kullanım Sıklıkları. Mehmet Can HANAYLI

Büyük, Dağıtık, Veri Yoğunluklu Uygulamalarda Programlama Paradigmaları

Saha servis uygulamaları için esnek uygulama geliştirme platformu :

INTERNET SİTESİ KULLANIM KILAVUZU

Türk İnşaat Firmalarının Yurtdışı Projelerde İşçi Sağlığı, İş Güvenliği ve Çevre Uygulamalarına Bakışı - Rusya Federasyonu Örneği

Kariyer ve Profesyonel Ağlar

Erma Yazılım EBYS Sistemi. (Elektronik Belge Yönetim Sistemi) Dijital Arşivleme. Otomasyonu

Elektronik Yayıncılık ve Bilimsel İletişim

DİZİN. Not: Koyu harfle yazılan sayfalar ilgili terimin yoğun olarak geçtiği sayfaları göstermektedir.

Bilgisayar Mühendisliğine Giriş. Yrd.Doç.Dr.Hacer KARACAN

SİNOP ÜNİVERSİTESİ MERKEZ KÜTÜPHANESİ UZMAN ALTUĞ ABUŞOĞLU

SE4SEE A Grid-Enabled Search Engine for

Veri Madenciliği Yöntemleriyle İGDAŞ Çağrı Merkezi Veri Analizi VE Kalite Fonksiyon Yayılımı Yöntemiyle Süreç İyileştirme Çalışması

Autodesk Robot Structural Analysis Professional İnşaat Müh. için Yapısal Modelleme, Analiz ve Tasarım çözümü

BİH 605 Bilgi Teknolojisi Bahar Dönemi 2015

Web Madenciliği (Web Mining)

Akdeniz Üniversitesi Mühendislik Fakültesi Bilgisayar Mühendisliği Bölüm Tanıtımı

Sosyal Web te Yeni Eğilimler: Kurumlar İçin Dışa Dönük Sosyal Yazılımlar

Çerez Aydınlatma Metni

WEB 2.0 ARAÇLARINI TANIMAK

Çevrimiçi Kütüphane Kataloglarının Sosyal Ağlarla Yeniden Yapılandırılması: Yazılımlar ve Projeler

ELEKTRONİK NÜSHA. BASILMIŞ HALİ KONTROLSUZ KOPYADIR

Tarih Saat Modül Adı Öğretim Üyesi. 01/05/2018 Salı 3 Bilgisayar Bilimlerine Giriş Doç. Dr. Hacer Karacan

Bu bölümde; Çok ölçütlü karar verme yöntemlerinden biri olan TOPSİS yöntemi anlatılacaktır.

Transkript:

Fırat Üniversitesi-Elazığ SOSYAL AĞLARIN WEB MADENCİLİĞİ TEKNİKLERİ İLE ANALİZİ VE ORTAK ATIF ANALİZİ İLE BENZERLİK TAHMİNİ Doç.Dr. Ali KARCI 1, Onur BOY 2 Bilgisayar Mühendisliği Bölümü İnönü Üniversitesi ali.karci@inonu.edu.tr 1, onurboy@gmail.com 2 ÖZET Sosyal ağlar, barındırdıkları sosyal aktörlerin ilişkilerine ait oldukça faydalı bilgiler ihtiva etmektedirler. Bu yapı ve ilişkilerin analiz edilmesi aracılığıyla yakınlıklar, benzeşmeler, eğilimler ve etkileşimler gibi verilere ulaşılarak ağdaki ilişkiler hakkında çeşitli yorumlara veya tahminlere varılabilir. Özellikle internet teknolojisinde yaşanan teknik ve kültürel gelişmeler ile sosyal ağlara ilişkin veriler somutlaşmış ve ölçülebilir hale gelmiştir. İnternet üzerinde gerçekleşen sosyal iletişim sonucu oluşan veri yığını çok büyük boyutlara ulaşmaktadır. Söz konusu devasa boyuttaki veri yığını içerisinden anlamlı bilginin çıkarılabilmesi için Web Madenciliği tekniklerinin kullanılmaktadır. Dijital sosyal ağların web madenciliği teknikleri kullanılarak analiz edilmesi ve bu sayede akademik, ticari, sosyolojik vb. alanlarda kıymetli verilere ulaşılması önemli bir çalışma konusu haline gelmiştir. Bu çalışmada genel hatları ile sosyal ağların web madenciliği teknikleri ile analizine ilişkin yöntemler incelenmiştir. Anlatılan konulara ilişkin somut bir örnek uygulama sunmak amacıyla web madenciliği tekniklerinden biri olan Web Yapı Madenciliği seçilmiş olup Ortak Atıf Analizi ile Benzerlik Tahmini uygulaması geliştirilmiştir. Anahtar Kelimeler: Sosyal Ağ Analizi, Web Madenciliği, Atıf Analizi. 1. GİRİŞ Günlük hayatımızın koşuşturmacası içerisinde pek farkında olmasak da içinde bulunduğumuz evren üzerinde dört bir yanımız çeşitli ağ yapıları ile çevrilidir. Örneğin maddelerin atomları arasındaki bağlardan oluşan yapılar, güneş sisteminin kendisi, vücudumuzdaki çeşitli sistemleri oluşturan ağ yapıları, canlılar ve çevre arasındaki ekolojik ağlar, toplumsal ve kültürel ağ yapıları, karayolu, demiryolu veya havayolu ağları, elektrik dağıtım ağı ve tabii ki en karmaşık ağlardan biri olan internet ağı. Bu örnekleri daha da çoğaltmak mümkündür. Ağ kavramı kelime anlamı olarak birçok nokta ile bunlar arasındaki bağlantılarla gösterilebilen bir dizgeye ilişkin yapı olarak tanımlanmaktadır [1]. Sosyal bir ağ ise, düğümler olarak adlandırılan bireylerden veya elemanlardan oluşan ve bu düğümleri kendi aralarındaki çeşitli ilişki ve etkileşimlere bağlı olarak birbirine bağlayan bir yapı olarak tanımlanabilir. Birbirleri ile etkileşim içerisinde bulunan bu varlıkların sosyal ağ yapısı içerisinde gerçekleştirdikleri her türlü etkileşimin detaylı olarak incelenmesi ve analiz edilmesi sonucunda söz konusu yapıyla ve içerdiği düğümlerle ilgili olarak ilk bakışta fark edilemeyen çok kıymetli bilgiler elde edilebilmektedir. Bu bakış açısından yola çıkılarak ağ yapılarının içerisindeki varlıklar arası ilişkilerin çeşitli bilimsel metotlar aracılığı ile detaylı olarak incelenmesi sonucu elde edilen verilerden anlamlı sonuçlar türetilmesi işi ise Sosyal Ağ Analizi olarak tanımlanmaktadır. Sosyal ağ analizi yeni bir kavram değildir ve 19. yy. sonlarından itibaren sosyoloji biliminin öncülüğünde gelişim göstermiştir. Teknolojide yaşanan büyük gelişmelerin, bireylerin ve toplulukların etkileşimini çok farklı boyutlara taşıması ile daha da gelişmiştir. Günümüzde iletişim teknolojilerinde ve özellikle internet ortamında yaşanan gelişmeler neticesinde bireyler arasındaki etkileşim daha hızlı ve karmaşık bir hal almış durumdadır. İki kişi arasındaki iletişim zaman ve mekândan bağımsız bir hale gelmiştir. İnternet üzerindeki sosyal paylaşım siteleri, bloglar, forum ortamları, mesajlaşma yazılımları ve daha bunun gibi pek çok ortam insanlar arasındaki ilişkilerin farklı bir boyut kazanmasına neden olmuştur. Sosyal ağ analizi günümüzde pek çok alanda kullanılmakta olup bunların başında birey ve sosyal grup yapılarının ve davranışlarının incelenmesi (bileşenlerine ayırma, kümeleme, ilişkilerin belirlenmesi), elektronik ticaret ve çevrimiçi reklamcılık (müşteri profilinin çıkarılması ve eğilim analizi, kişiye özel reklamcılık ve teklif sunma), fiziki yapıların analizi (ulaşım, tesisat, altyapı) ve büyük veri kümelerinin analizi (medya takibi, akademik yayın analizi, genetik araştırmalar) gelmektedir. Dijital ortamlarda sağlanan iletişimin yarattığı imkânlardan bir diğeri ise oluşan iletişim verilerinin somut bir biçimde ölçülebilir olmasıdır. Çeşitli ortamlarda saklanan veriler, geliştirilen teknikler sayesinde detaylı olarak analiz edilmekte ve bunun sonucunda bir takım değerli bilgiye ulaşılmaktadır. Ancak, sayısal ortamlar üzerinde oluşan sosyal ağ yapıları içerisindeki aktörlerin birbirleri ile olan ilişkileri, etkileşimleri ve bilgi paylaşımları sonucu ortaya çok büyük ölçekte bir veri kümesi çıkmaktadır. Bu veri yığından işe yarar verilerin ve ileriye yönelik kuvvetli tahminlerin ortaya çıkarılmasında Veri Madenciliği Teknikleri büyük fayda sağlamaktadır. Veri Madenciliği Tekniklerinin internet üzerinde oluşan sosyal ağlara ait veri kümelerine uygulanmasında ise Web Madenciliği yöntemleri kullanılmaktadır [2-6]. Konu ile ilgili detaylar 2. bölümde incelenmiştir. Bu çalışmada genel hatları ile sosyal ağların web madenciliği teknikleri ile analizine ilişkin yöntemler incelenmiştir. Anlatılan konulara ilişkin somut bir örnek uygulama sunmak amacıyla web madenciliği tekniklerinden biri olan Web Yapı Madenciliği seçilmiş olup Ortak Atıf Analizi ile Benzerlik Tahmini uygulaması geliştirilmiştir. Akademik yayınların ve bu yayınlar arasındaki atıfların oluşturduğu yapı bir sosyal ağ yapısı olarak seçilmiştir. Web madenciliğinin üç ana tekniğinden biri olan ve ağ yapısı 154

Elektrik-Elektronik ve Bilgisayar Sempozyumu 2011 içerisindeki düğümler arası bağların yapısal bakımdan incelendiği Web Yapı Madenciliği tekniği kullanılarak akademik yayınlar arasındaki atıfları (citation) ele alarak ortak yayınlara atıf yapan iki akademik yayının aynı konu hakkında yazılmış olma ihtimalini değerlendiren bir uygulama sunulmuştur. Uygulama sonuçlarının somut olarak kıymetlendirilebilmesi için Sosyal Ağların Web Madenciliği Teknikleri ile Analizi konusunda IEEE veritabanından toplam 22 adet makale incelenmiştir. İlgili dokümanlar konu bakımından özel olarak 2 ana grup altından seçilmiştir ( Web / Data mining-social Networking ve Link prediction and Page ranking ). Uygulama sonuçları incelendiğinde mevcut uygulamanın iki makale arasındaki benzerliği güçlü bir şekilde tespit ettiği ve doğal konu grubuna göre sınıflandırmada ise yüksek bir başarı oranı ile sınıflandırmayı gerçekleştirdiği tespit edilmiştir. Uygulamaya ilişkin detaylar 3. bölümde sunulmuştur. 2. WEB MADENCİLİĞİ TEKNİKLERİ Web madenciliği; çeşitli yapıdaki web sayfalarını, dokümanlarını ve kayıt bilgilerini incelemek ve bunlardaki anlamlı kalıpları keşfetmek için veri madenciliği tekniklerinin kullanılması olarak tanımlanabilir [2]. Web madenciliğinin amacı ise veri madenciliği tekniklerinin kullanılarak web belgelerinden ve servislerinden otomatik olarak bilginin ayıklanması, ortaya çıkarılması ve tahlil edilmesidir [4]. 2008 yılında ABD de yapılan bir çalışmaya göre bir ayda ortalama bir milyon terabyte veri taşınmakta ve bu sayı her geçen yıl artmaktadır [7]. 2.1.1 Kaynak Bulma Kaynak bulma çok geniş kapsamlı bir konudur ancak kısaca bilginin elde edilme kısmıdır. Çeşitli verilerin çevrimiçi ya da çevrimdışı olmasına bakılmadan bir veri ambarında toplanmasıyla yapılır. İnternet üzerindeki çeşitli gazeteler, haber grupları vb. gibi yerlerden verinin toplanıp arama amaçlı olarak bir yerde saklanmasıdır. 2.1.2 Bilgi Çıkarımı ve Ön İşleme Veri kaynağından toplanan verilerin işlenmesi ve işe yaracak hale getirilmesi, bir bakıma verinin temizlenmesidir. Ayrıca modellenmesi, sınıflandırılması hatta filtrelenmesidir. 2.1.3 Genelleştirme Genelleştirmede, elde ettiğimiz tecrübenin genelleştirilmesi ve bu tecrübeler üzerinden genel-geçer kurallar türetilebilmesi amaçlanmaktadır. 2.1.4 Çözümleme (Analiz) Çıkarılan kurallar yardımı ile eldeki verilerden anlamlı sonuçlar çıkarılması ve ileriye yönelik tahmin ve değerlendirmelerin yapılmasıdır. 2.2 Web Madenciliği Yöntemleri Web madenciliğinde kullanılan yöntemler; Web İçerik Madenciliği, Web Yapı Madenciliği ve Web Kullanım Madenciliği olmak üzere 3 ana grupta incelenmektedir. Şekil 1: A.B.D. Aylık Ortalama İnternet Trafiği Şekil 2: Web Madenciliği Yöntemleri Web madenciliğinde kullanılan veriler, web üzerinde çok geniş bir alandan toplanmaktadır. Bu veriler web sayfaları, log dosyaları, kullanıcı kayıt bilgileri, oturum ve hareket bilgileri ve site yapısı ve içeriğinden oluşmaktadır. Söz konusu büyüklükte ve karmaşıklıktaki verilerin etkin bir biçimde analiz edilebilmesi için web madenciliğinde kullanılan tüm yöntemler 4 ana işlem basamağından oluşmaktadır: Kaynak bulma, bilgi çıkarımı ve ön işleme, genelleştirme ve çözümleme [4]. 2.1 Web Madenciliği Tekniklerinin Ortak İşlem Basamakları 2.2.1 Web İçerik Madenciliği Yapay zekâ, akıllı yazılım programları ve bilgi tarama teknikleri kullanılarak web kaynaklarının içeriklerinden (metin, resim, ses, görüntü, metadata ve hiperlinkler) yararlı bilgiyi elde etmek olarak tanımlanabilir. Bu bilgiler Web Crawler olarak adlandırılan çeşitli yazılımlar (robot, örümcek vb.) tarafından toplanır. ( gelişmiş arama motorları, içeriklerin indekslenmesi vb.) 2.2.2 Web Yapı Madenciliği 155

Fırat Üniversitesi-Elazığ Web siteleri ve web sayfaları arasındaki bağlantıların incelenmesiyle gerçekleştirilmektedir. Web yapı madenciliği düğümler arası bağlantılara odaklanır. Düğümler arasındaki bağların durumuna göre farklı düğümler arasındaki benzerlik ve ilişki gibi bilgileri üretir. Web yapı madenciliğinde ağlar yönlü graflar şeklinde ifade edilirler. Ağ üzerindeki her bir eleman bir düğümü, elemanlar arasındaki ilişkiler ise yönlü ve/veya ağırlıklı kenarları temsil eder. Graf yapısının oluşturulmasıyla birlikte graf teorisindeki bağıntılardan da yararlanılarak özellikle benzerlik ile ilgili olarak komşuluk matrisleri çıkarılarak çeşitli analizler yapılabilir. (Benzer arama sonuçları, atıf analizi vb.) Google arama motoru da bir web yapı madenciliği uygulaması olan HITS (Hyperlink- Induced Topic Search) algoritmasını kullanarak benzer sayfaları sonuçlarda göstermektedir. 2.2.3 Web Kullanım Madenciliği Bu yöntemde ihtiyaç olunan veriler internet mecrası üzerindeki çeşitli sunucularda kayıt altına alınmış olan kullanıcılara ait işlem ve oturum bilgilerinin yer aldığı log dosyalarından elde edilir. Burada amaçlanan ziyaretçilerin siteyi kullandıktan sonra geride bıraktığı erişim kayıtlarından veri üretmektir. Bu verilere örnek olarak kullanıcı adı, ip adresi, fiziksel bağdaştırıcı adresi, bağlantı saati, oturum süresi gibi bilgiler verilebilir ve söz konusu veriler kullanıcının isteği dışında ve zorunlu olarak oluşmaktadır. Log dosyalarının analiz edilmesi ile kullanıcılar hakkında detaylı bilgi ve çıkarımlara ulaşılabilir, kişiye özel içerik sunma, teklif gönderme, kişiye özel reklamcılık gibi uygulamalar geliştirilebilir, kullanıcının eğilimleri belirlenebilir ve ileriye yönelik tahminler üretilebilir. Bu sayede özellikle ticari alanlarda firma sahiplerine büyük avantaj sağlanmaktadır. Ayrıca kullanıcı kayıtlarının elde edilen geri beslemeler doğrultusunda tasarımda kişiselleştirmeler ve iyileştirmeler yapılabilir ve kullanılabilirliğin arttırılması sağlanabilir. 3. UYGULAMA - ORTAK ATIF ANALİZİ İLE BENZERLİK TAHMİNİ 3.1. Problemin Tanımlanması İki akademik doküman arasında konu açısından benzerlik olup olmadığını anlaşılması için ilgili dokümanların sadece başlık kısımlarının veya metin içeriklerinin karşılaştırılması muhtemelen başarılı sonuçlar vermeyecektir. Çünkü aynı konu, farklı kelime ve ifade şekilleriyle farklı biçimlerde ifade edilebilir. Ayrıca uzun bir metin dosyasını kelime kelime incelemek ve hangi konu hakkında olduğunu anlamak için gerekli sayısal işlemleri yapmak ve bunu başka bir doküman ile kıyaslamak kayda değer derecede hesaplama karmaşıklığını da beraberinde getirecektir. Bunun yerine akademik dokümanların içeriğine bakmadan sadece bu dokümanlar arasındaki atıf ilişkilerine bakarak farklı iki doküman arasındaki konu benzerliği tespit edilebilir [8]. Akademik dokümanlardan oluşan bir makale havuzunu bir sosyal ağ ortamı olarak ele alabiliriz. Her bir makale bu ağ içerisindeki düğümleri, makaleler arasındaki atıf ilişkileri ise düğümler arasındaki yönlü kenarları temsil etmektedir. Bu sayede söz konusu ağ yapısına ilişkin bir yönlü graf türetilebilir ve bu graf üzerinden bir komşuluk matrisi hesaplanabilir. Bu matris aracılığıyla ise iki farklı makalenin ne kadar benzer oldukları yönünde bir tahminde bulunabiliriz. Eğer p3 ve p4 gibi iki doküman, pek çok başka dokümana ortak olarak atıf yapıyorlarsa, p3 ve p4 dokümanları arasında güçlü bir ilişki veya benzerlik olduğu değerlendirilebilir (Biblio-coupling). Ne kadar fazla sayıda dokümana ortak olarak atıf yaparlarsa aralarındaki ilişki de o derece güçlü olacaktır [8]. Şekil 3: Ortak Atıf İlişkisi [9] Bu çalışmada düğümler arası bağlantılar üzerinden değerlendirme yapıldığı için oluşan sosyal ağ yapısının analizinde yöntem olarak web madenciliği tekniklerinden biri olan Web Yapı Madenciliği yöntemi seçilmiştir. 3.2. Çözüm Yöntemi Dokümanlar arasındaki atıf ilişkisine bakılarak eğer i dokümanından j dokümanına bir atıf yapılmışsa L ij =1, yapılmamışsa L ij =0 olacak şekilde bir L atıf matrisi (adjacency-komşuluk matrisi) oluşturulur. Bizim aradığımız ve i ile j dokümanlarının ortak atıf yaptıkları doküman sayısı olan C ij ise; (1) [8] bağıntısı ile hesaplanır. Burada n toplam doküman sayısıdır. Sonuçta elde edilen C kare matrisi Ortak Atıf Matrisi (Bibliographic Coupling Matrix) olarak adlandırılır [8]. 156

Elektrik-Elektronik ve Bilgisayar Sempozyumu 2011 Şekil 4: Dokümanlar Arası Atıf İlişkisi ve L Komşuluk Matrisi Şekil 5: L (solda) ve C (sağda) Matrisleri Arasındaki İlişki Denklem 1 de verilmiş olan bağıntı sonucunda L komşuluk matrsinden elde edilen C matrisindeki değerlerin normalize edilmesi amacıyla (2) [9] bağıntısı yardımı ile S normalize edilmiş atıf matrisini elde edebiliriz [9]. Burada seçilecek bir α eşik değerinden büyük olan ihtimaller kabul edilebilir. Eşik değeri ne kadar büyük seçilirse eşlenecek doküman sayısı azalacak ancak eşleşmelerin doğru olma ihtimali artacaktır. Aksi durumda ise tam tersi geçerli olacaktır. Bu çalışmada eşik değeri %60 olarak kabul edilmiştir. (S 39 =S 93 : 3 ve 9. Makaleler arasındaki benzerlik tahmini oranı) Şekil 6: S Normalize Edilmiş Matrisi 157

Fırat Üniversitesi-Elazığ 3.3. Uygulamanın Gerçeklenmesi Uygulamanın somut olarak değerlendirilebilmesi amacıyla Sosyal Ağların Web Madenciliği Teknikleri ile Analizi konusunda IEEE veritabanından toplam 22 adet makale incelenmiştir. İlgili dokümanlar konu bakımından özel olarak 2 ana grup altından seçilmiştir ( Web / Data mining-social networking ve Link prediction and page ranking ). Şekil 8 de de görüldüğü üzere konu olarak ele alındığında dolgu ile işaretlenmiş makaleler bir grubu geri kalanlar ise diğer grubu oluşturmaktadır. Birinci grup olan Link prediction and Page ranking konusunda toplam 13 adet, ikinci grup olan Web / Data mining - Social networking konusunda ise toplam 9 adet doküman bulunmaktadır ve bu dokümanlar Şekil 9 daki haliyle doğal olarak iki grup altında bulunmaktadır. Çalışma kapsamında söz konusu 22 doküman tek tek incelenmiş ve bu dokümanlara ait yaklaşık 600 adet atıf irdelenerek Şekil 10 daki L atıf matrisi oluşturulmuştur. Burada akla gelebilecek hususlardan biri de dokümanlar içerisindeki atıfların otomatik olarak çıkarılması olabilir. Çünkü dijital ortamdaki yüz binlerce dokümanı tek tek inceleyerek atıf analizi yapmak elbette ki mümkün olmayacaktır.. Şekil 7: İncelenen Makaleler Şekil 8: Makaleler Arası Doğal Grup Yapısı Ancak bu fikir başka bir çalışmaya önderlik edebilir ve dokümanlar içerisindeki atıfları daha sonra analiz edilmek üzere otomatik olarak veri tabanına ekleyen bir uygulama geliştirilebilir. Bu çalışmada temel amaç bu olmadığı için böyle bir kaygı duyulmamış ve sadece ortaya konulan fikrin mevcut web madenciliği teknikleri ile ne seviyede gerçeklenebileceği üzerine yoğunlaşılmıştır. L atıf matrisinin ortaya çıkarılmasının ardından denklem 1 ve denklem 2 de verilmiş olan bağıntılar uygulanmış ve belirlemiş olduğumuz %60 eşik değeri üzerinde oluşan benzerlik değerleri aşağıda verilmiş olan kod yardımı ile Şekil 11 de görüldüğü şekilde hesaplanmıştır. 3.4. C ve S Matrislerinin Hesaplanması $n=count($l); $i=0; $j=0; for ($i=0; $i<=$n; $i++) { for ($j=0; $j<=$n; $j++) { $C[$i][$j]=0; for ($k=0; $k<=$n; $k++) { $C[$i][$j]=($C[$i][$j]+ ($L[$i][$k]*$L[$j][$k])); //normalizasyon işlemi for ($i=0; $i<=$n; $i++) { for ($j=0; $j<=$n; $j++) { $h=min($c[$i][$i],$c[$j][$j]); $b=($h*(($c[$i][$i]+$c[$j][$j])/2)); if($b==0){$b=1; $S[$i][$j]=($C[$i][$j]*$C[$i][$j])/$b; 158

Elektrik-Elektronik ve Bilgisayar Sempozyumu 2011 Şekil 9: Makalelerden Elde Edilen L Atıf Matrisi Şekil 10: Hesaplama Sonucu Elde Edilen S Benzerlik Matrisi Şekil 11: Hesaplama Sonrası Grup Yapısı 159

Fırat Üniversitesi-Elazığ Şekil 12 de de açıkça görüldüğü üzere hesaplanan benzerlik ilişkileri doğrultusunda makalelerin girdiği gruplar yeniden incelendiğinde 12,15 ve 18. makalelerin uygulamamız tarafından yanlış sınıflandırıldığı tespit edilmiştir. Bunun temel sebebi ise her ne kadar konuları farklı olsa da bu makaleler içerisinde karşı grubunun konusuna ait oldukça fazla sayıda dokümana atıf bulunmasıdır. Dolayısıyla yapılan atıflar üzerinden ilişki tahmini yapan uygulamamız bu makalelerin karşı gruba konu bakımından daha yakın olduğunu düşünerek yanılmıştır. Ancak genel olarak başarı oranına bakıldığında ve mevcut makale uzayının kısıtlı bir sayıda olduğu düşünüldüğünde ortaya çıkan sonucun azımsanamayacak derecede başarılı olduğu göz ardı edilmemelidir. Daha geniş veri kümeleri üzerinde daha başarılı sonuçlar elde edilebilir. Belirlenen eşik değeri üzerinde tespit edilen benzerliklerin tamamı incelendiğinde uygulamamızın tespit ettiği 12 adet makale eşleşmesinin tamamında doğru sonuca ulaştığı görülmektedir. Tablo 1 ve Tablo 2 de bulunan benzerlikler ve söz konusu makalelerin konuları gösterilerek eşleşmenin başarısına vurgu yapılmaktadır. Burada en dikkat çekici nokta arasında hiçbir atıf ilişkisi olmasa dahi iki dokümanın benzerliğinin üçüncü dokümanlar üzerinden başarılı bir şekilde tahmin ediliyor olmasıdır. Tablo 1: Arasında Benzerlik Olduğu Tespit Edilen Makaleler Tablo 2: Arasında Benzerlik Olduğu Tespit Edilen Makalelerin Konuları (* Aralarında atıf ilişkisi olmayan benzerlikler) 160

Elektrik-Elektronik ve Bilgisayar Sempozyumu 2011 Tablo 2 de gösterilen benzerliklerde farklı renkteki yazılar konu grubunu temsil etmektedir. Tüm benzerlikler ele alındığında konu grubu üzerinde %14 lük bir hata oluşmuş olmasına rağmen eşik değeri üzerindeki tüm benzerliklerde konu grupları doğru olacak şekilde eşleşme gerçekleşmiştir. 4. SONUÇLAR Bu çalışmada genel hatları ile sosyal ağların web madenciliği teknikleri ile analizine ilişkin yöntemler incelenmiştir. Sosyal ağlar, barındırdıkları sosyal aktörlerin ilişkilerine ait oldukça faydalı bilgiler ihtiva etmektedirler. Bu yapı ve ilişkilerin analiz edilmesi aracılığıyla yakınlıklar, benzeşmeler, eğilimler ve etkileşimler gibi verilere ulaşılarak ağdaki ilişkiler hakkında çeşitli yorumlara veya tahminlere varılabilir. Özellikle internet teknolojisinde yaşanan teknik ve kültürel gelişmeler ile sosyal ağlara ilişkin veriler somutlaşmış ve ölçülebilir hale gelmiştir. İnternet üzerinde gerçekleşen sosyal iletişim sonucu oluşan veri yığını çok büyük boyutlara ulaşmaktadır. Söz konusu devasa boyuttaki veri yığını içerisinden anlamlı bilginin çıkarılabilmesi için Web Madenciliği teknikleri kullanılmaktadır. Dijital sosyal ağların web madenciliği teknikleri kullanılarak analiz edilmesi ve bu sayede akademik, ticari, sosyolojik vb. alanlarda kıymetli verilere ulaşılması önemli bir çalışma konusu haline gelmiştir. Anlatılan konulara ilişkin somut bir örnek uygulama sunmak amacıyla web madenciliği tekniklerinden biri olan Web Yapı Madenciliği seçilmiş olup Ortak Atıf Analizi ile Benzerlik Tahmini uygulaması geliştirilmiştir. Uygulama sonucunda elde edilen veriler incelendiğinde genel olarak uygulamanın dokümanlar arasındaki atıf ilişkisi üzerinden yapılan benzerlik tahmininde başarılı sonuçlar verdiği görülmektedir. Yapılacak daha detaylı çalışmalar neticesinde; örneğin hakemli yayınların incelenmesi sürecinde, değerlendirme yapacak hakeme ulaşacak akademik yayının konusunu otomatik olarak tespit eden ve yayını konu hakkında görevlendirilecek olan ilgili hakemlere doğru bir şekilde yönlendiren bir otomasyon sistemi gibi daha kapsamlı uygulamalar geliştirilmesinin mümkün olacağı değerlendirilmektedir. 5. KAYNAKLAR [1] Köksal, A., Bilişim Terimleri Sözlüğü, Türk Dil Kurumu Yayınları, 126 s. 1981. [2] Baykal, A., Coşkun, C. Web Madenciliği Teknikleri, Akademik Bilişim 09 XI. Akademik Bilişim Konferansı Bildirileri s.797-800, Harran Üniversitesi- Şanlıurfa, Şubat 2009. [3] Ting, I.H. Web Mining Techniques for On-line Social Network Analysis, s.696-700, IEEE 2008. [4] Tekin, N., Pulat,S. Veri Madenciliği www.beykent.biz/dokumanlar/data_mining/web_maden ciligi.ppt,erişim Tarihi 01.06.2011 [5] Gürcan, F., Köse, C. Web İçerik Madenciliği Ve Konu Sınıflandırılması Akademik Bilişim 2008 Çanakkale Onsekiz Mart Üniversitesi, Çanakkale, 30 Ocak - 01 Şubat 2008 [6] Ergün C. Web Madenciliği Teknikleri http://www.bilyaz.com/index.php/author/celal-caginelgun/ Erişim Tarihi: 26.05.2011 [7] http://www.bretswanson.com/index.php/2009/03/ internet-update/,erişim Tarihi 02.06.2011 [8] G.Xu, Y. Zhang, L. Li, Web Mining and Social Networking 2011. [9] Greene D., Freyne J., Smyth B., and Cunningham P., An Analysis of Research Themes in the CBR Conference Literature, 2008. 161