Metin Madenciliği ile Benzer Haber Tespiti



Benzer belgeler
Metin Madenciliği ile Benzer Haber Tespiti

BÖL-1B. Fatih University- Faculty of Engineering- Electric and Electronic Dept.

Web Madenciliği (Web Mining)

SÜREÇ YÖNETİMİ VE SÜREÇ İYİLEŞTİRME H.Ömer Gülseren > ogulseren@gmail.com

İSTANBUL KEMERBURGAZ ÜNİVERSİTESİ. ÇİFT ANADAL ve YANDAL PROGRAMI YÖNERGESİ

Araştırma Notu 15/177

Rekabet Kurumu Başkanlığından, REKABET KURULU KARARI

BANKA MUHASEBESİ 0 DÖNEN DEĞERLER HESAP GRUBU

2015 OCAK ÖZEL SEKTÖR DI BORCU

B05.11 Faaliyet Alanı

DİKKAT! SORU KİTAPÇIĞINIZIN TÜRÜNÜ "A" OLARAK CEVAP KÂĞIDINA İŞARETLEMEYİ UNUTMAYINIZ. SAYISAL BÖLÜM SAYISAL-2 TESTİ

MARMARA ÜNĠVERSĠTESĠ YABANCI DĠL VE TÜRKÇE HAZIRLIK SINIFLARI EĞĠTĠM-ÖĞRETĠM ve SINAV YÖNERGESĠ Senato: 13 Ekim 2009 /

İstanbul Bilgi Üniversitesi Lisansüstü Eğitim ve Öğretim Yönetmeliği ne Tâbi Öğrenciler İçin Mali Usul ve Esaslar

B02.8 Bölüm Değerlendirmeleri ve Özet

TOBB ETÜ LİSANSÜSTÜ BURSLU ÖĞRENCİ YÖNERGESİ* (*) Tarih ve S sayılı Senato oturumunun 4 nolu Kararı ile Kabul edilmiştir.

AKSARAY ÜNİVERSİTESİ. Amaç, Kapsam, Dayanak ve Tanımlar

Yakıt Özelliklerinin Doğrulanması. Teknik Rapor. No.: 942/

Tasarım Raporu. Grup İsmi. Yasemin ÇALIK, Fatih KAÇAK. Kısa Özet

Digifresh Kullanım Kılavuzu

Şekil 1. Sistem Açılış Sayfası

Fizik I (Fizik ve Ölçme) - Ders sorumlusu: Yrd.Doç.Dr.Hilmi Ku çu

-Bursa nın ciroları itibariyle büyük firmalarını belirlemek amacıyla düzenlenen bu çalışma onikinci kez gerçekleştirilmiştir.

Osmancık İsmail Karataş Sağlık Meslek Lisesi

KAMU İHALE KANUNUNA GÖRE İHALE EDİLEN PERSONEL ÇALIŞTIRILMASINA DAYALI HİZMET ALIMLARI KAPSAMINDA İSTİHDAM EDİLEN İŞÇİLERİN KIDEM TAZMİNATLARININ

İSTANBUL KEMERBURGAZ ÜNİVERSİTESİ ÖNLİSANS VE LİSANS PROGRAMLARI ARASINDA YATAY GEÇİŞ YÖNERGESİ. BİRİNCİ BÖLÜM Amaç, Kapsam, Dayanak ve Tanımlar

AvivaSA Emeklilik ve Hayat. Fiyat Tespit Raporu Görüşü. Şirket Hakkında Özet Bilgi: Halka Arz Hakkında Özet Bilgi:

Genel bilgiler Windows gezgini Kes Kopyala Yapıştır komutları. 4 Bilinen Dosya Uzantıları

K12NET Eğitim Yönetim Sistemi

GAZİOSMANPAŞA ÜNİVERSİTESİ YAZ OKULU YÖNERGESİ BİRİNCİ BÖLÜM

DEVLET MUHASEBES NDE AMORT SMAN

Yandaki resimlerde Excel Pazartesi den başlayarak günleri otomatik olarak doldurmuştur.

BĐSĐKLET FREN SĐSTEMĐNDE KABLO BAĞLANTI AÇISININ MEKANĐK VERĐME ETKĐSĐNĐN ĐNCELENMESĐ

TÜBİTAK TÜRKİYE BİLİMSEL VE TEKNİK ARAŞTIRMA KURUMU BİLİM ADAMI YETİŞTİRME GRUBU ULUSA L İLKÖĞRETİM MA TEMATİK OLİMPİYADI DENEME SINAVI.

Doç.Dr.Mehmet Emin Altundemir 1 Sakarya Akademik Dan man

1. YAPISAL KIRILMA TESTLERİ

ÖĞRENME FAALĠYETĠ GELĠġMĠġ ÖZELLĠKLER

Milli Gelir Büyümesinin Perde Arkası

ÖZEL İZMİR AMERİKAN KOLEJİ KAYIT TAKVİMİ VE KILAVUZU

GALATA YATIRIM A.Ş. Halka Arz Fiyat Tespit Raporu DEĞERLENDİRME RAPORU SAN-EL MÜHENDİSLİK ELEKTRİK TAAHHÜT SANAYİ VE TİCARET A.Ş.

KOCAELİ İL MİLLİ EĞİTİM MÜDÜRLÜĞÜ EVRAK TAKİP SİSTEMİ

Akademik Personel ve Lisansüstü Eğitimi Giriş Sınavı. ALES / Đlkbahar / Sayısal II / 22 Nisan Matematik Soruları ve Çözümleri

Banka Kredileri E ilim Anketi nin 2015 y ilk çeyrek verileri, Türkiye Cumhuriyet Merkez Bankas (TCMB) taraf ndan 10 Nisan 2015 tarihinde yay mland.

MEYVE SULARI. Hazırlayan Nilüfer YILMAZ T.C. Başbakanlık Dış Ticaret Müsteşarlığı İhracatı Geliştirme Etüd Merkezi

NAZİLLİ DEVLET HASTANESİ ECZANE İŞLEYİŞ PROSEDÜRÜ

Ekonomi Bülteni. 16 Mart 2015, Sayı: 11. Yurt Dışı Gelişmeler Yurt İçi Gelişmeler Finansal Göstergeler Haftalık Veri Akışı

Evrak Ekle. Kurum İçi Giden Evrak Ekleme. Kırmızı renker; doldurulması zorunlu alanları ifade etmektedir. İleri Geri tarihli işlem yapılamamaktadır.

Görüntü Analizi Görüntü Analizin Temelleri

İSTANBUL TİCARET ÜNİVERSİTESİ BİLGİSAYAR MÜHENDİSLİĞİ BÖLÜMÜ BİLGİSAYAR SİSTEMLERİ LABORATUARI YÜZEY DOLDURMA TEKNİKLERİ

MADDE 2 (1) Bu Yönerge, 2547 sayılı Yükseköğretim Kanunu ve değişiklikleri ile İzmir Üniversitesi Ana Yönetmeliği esas alınarak düzenlenmiştir.

YÜKSEK HIZLI DEMİRYOLU YOLCULUKLARININ ÖZELLİKLERİ

BİT ini Kullanarak Bilgiye Ulaşma ve Biçimlendirme (web tarayıcıları, eklentiler, arama motorları, ansiklopediler, çevrimiçi kütüphaneler ve sanal

ÖLÇÜ TRANSFORMATÖRLERİNİN KALİBRASYONU VE DİKKAT EDİLMESİ GEREKEN HUSUSLAR

Dünyaya barış ve refah taşıyor, zorlukları azimle aşıyoruz

ANKARA EMEKLİLİK A.Ş GELİR AMAÇLI ULUSLARARASI BORÇLANMA ARAÇLARI EMEKLİLİK YATIRIM FONU ÜÇÜNCÜ 3 AYLIK RAPOR

KÜRESEL GELİŞMELER IŞIĞI ALTINDA TÜRKİYE VE KUZEY KIBRIS TÜRK CUMHURİYETİ EKONOMİSİ VE SERMAYE PİYASALARI PANELİ

GTİP 9401: Ağaç, Mantar, Kemik, Sert Kauçuk, Plastik vb. İşleme Makineleri

Tel: Fax: ey.com Ticaret Sicil No : Mersis No:

Dönemi Piyasa Yapıcılığı Sözleşmesi

İçerik EBYS Raporlama... 2 Belge İşlemleri Raporu... 2 Birim Gelen Belge Listesi Raporu... 3 Birim Gelen Belge Sayıları Raporu... 4 Birim Giden Belge

MATEMATİK (haftalık ders sayısı 5, yıllık toplam 90 ders saati)

VEGAWINA VERSION

1 OCAK - 31 ARALIK 2015 HESAP DÖNEMİNE AİT PERFORMANS SUNUŞ RAPORU (Tüm tutarlar, aksi belirtilmedikçe Türk Lirası ( TL ) cinsinden ifade edilmiştir.

Yıllık İş İstatistikleri Sanayi ve Hizmet Soru Kağıdı Hazırlanışı

MODÜL BİLGİ SAYFASI İÇERİK

İÇİNDEKİLER. 1. Projenin Amacı Proje Yönetimi Projenin Değerlendirilmesi Projenin Süresi Projenin Kapsamı...

Özelge: 4632 sayılı Kanunun Geçici 1. maddesi kapsamında vakıf/sandıklardan bireysel emeklilik sistemine yapılan aktarımlarda vergilendirme hk.

ÇÖKELME SERTLEŞTİRMESİ (YAŞLANDIRMA) DENEYİ

İSTANBUL ÜNİVERSİTESİ YABANCI DİL EĞİTİM-ÖĞRETİM VE SINAV YÖNETMELİĞİ

T.C. MİLLÎ EĞİTİM BAKANLIĞI Müsteşarlığı. Sayı : B.O8.0.MÜB.O / /06/2007

BÖLÜM 3 FREKANS DAĞILIMLARI VE FREKANS TABLOLARININ HAZIRLANMASI

Anonim Verilerin Lenovo ile Paylaşılması. İçindekiler. Harmony

DÜNYA EKONOMİK FORUMU KÜRESEL CİNSİYET AYRIMI RAPORU, Hazırlayanlar. Ricardo Hausmann, Harvard Üniversitesi

Resmi Gazete Tarihi: Resmî Gazete Resmi Gazete Sayısı: YÖNETMELİK ELEKTRONİK HABERLEŞME SEKTÖRÜNDE HİZMET KALİTESİ YÖNETMELİĞİ

Afyon Kocatepe Üniversitesi Yabancı Dil Hazırlık Sınıfı Eğitim-Öğretim

BİRİNCİ BÖLÜM Amaç, Kapsam, Dayanak ve Tanımlar

SİRKÜLER. 1.5-Adi ortaklığın malları, ortaklığın iştirak halinde mülkiyet konusu varlıklarıdır.

BÖLÜM 3 : SONUÇ VE DEĞERLENDİRME BÖLÜM

Lisansüstü Programlar, Başvuru ve Kabul Yönetmeliği Sayfa: 1

ÇALIŞMA VE SOSYAL GÜVENLİK BAKANLIĞI İŞ SAĞLIĞI VE GÜVENLİĞİ GENEL MÜDÜRLÜĞÜ. İş Sağlığı ve Güvenliği Fayda-Maliyet Analizi Proje Raporu

AB Mevzuatının Uygulanmasına Yönelik Teknik Desteğin Müzakere Edilmesi

BİLGİSAYAR PROGRAMLARI YARDIMIYLA ŞEV DURAYLILIK ANALİZLERİ * Software Aided Slope Stability Analysis*

İZMİR KÂTİP ÇELEBİ ÜNİVERSİTESİ YABANCI DİLLER YÜKSEKOKULU HAZIRLIK SINIFI YÖNERGESİ. BİRİNCİ BÖLÜM Amaç, Kapsam, Dayanak ve Tanımlar

HAM PUAN: Üniversite Sınavlarına giren adayların sadece netler üzerinden hesaplanan puanlarına hem puan denir.

İnşaat Firmalarının Maliyet ve Süre Belirleme Yöntemleri Üzerine Bir Alan Çalışması

GYODER SEKTÖR BULUŞMASI 28 MAYIS 2013 İSTANBUL DR. VAHDETTİN ERTAŞ SERMAYE PİYASASI KURULU BAŞKANI KONUŞMA METNİ

İSTANBUL KEMERBURGAZ ÜNİVERSİTESİ BURS YÖNERGESİ. BİRİNCİ BÖLÜM Amaç, Kapsam, Dayanak ve Tanımlar

BİTLİS EREN ÜNİVERSİTESİ BEDEN EĞİTİMİ VE SPOR YÜKSEKOKULU BEDEN EĞİTİMİ VE SPOR ÖĞRETMENLİĞİ BÖLÜMÜ ÖZEL YETENEK SINAVI YÖNERGESİ

a) Birim sorumluları: Merkez çalışmalarının programlanmasından ve uygulanmasından sorumlu öğretim elemanlarını,

MEVCUT OTOMATĐK KONTROL SĐSTEMLERĐNĐN BĐNA OTOMASYON SĐSTEMĐ ĐLE REVĐZYONU VE ENERJĐ TASARRUFU

BÖLÜM 7 BİLGİSAYAR UYGULAMALARI - 1

ELLE SÜT SAĞIM FAALİYETİNİN KADINLARIN HAYATINDAKİ YERİ ARAŞTIRMA SONUÇLARI ANALİZ RAPORU

ın Kısa süre içinde çıkacak mesajını verdiği karar Bakanlar Kurulu ndan geçti ve Resmi Gazete

DEĞERLENDİRME NOTU: Mehmet Buğra AHLATCI Mevlana Kalkınma Ajansı, Araştırma Etüt ve Planlama Birimi Uzmanı, Sosyolog

TÜİK KULLANICI ANKETİ SONUÇLARI

MedDATA SAĞLIK NET KURULUMU

Yeni Mali Yönetim ve Kontrol Sisteminde. İç Kontrol ve Ön Mali Kontrol

Sayfa 1 / 5 İŞ SAĞLIĞI VE GÜVENLİĞİ MEVZUATINA GÖRE İŞYERLERİNDE RİSK DEĞERLENDİRMESİ NASIL YAPILACAK?

Bu doğrultuda ve 2104 sayılı Tebliğler dergisine göre Türkçe dersinde şu işlemlerin yapılması öğretmenden beklenir.

MAKÜ YAZ OKULU YARDIM DOKÜMANI 1. Yaz Okulu Ön Hazırlık İşlemleri (Yaz Dönemi Oidb tarafından aktifleştirildikten sonra) Son aktif ders kodlarının

ÇUKUROVA'DA OKALİPTÜS YETİŞTİRİCİLİĞİ VE İDARE SÜRELERİNİN HESAPLANMASI

Transkript:

Metin Madenciliği ile Benzer Haber Tespiti Anıl KARADAĞ* Hidayet TAKÇI* *Gebze Yüksek Teknoloji Enstitüsü, Bilgisayar Mühendisliği Bölümü, Kocaeli

İçerik Giriş Yapısal Olmayan Veri Metin Madenciliği Sistemin Yapısı Kullanılan veri seti Haber metinlerinin temizlenmesi Etiket atama Benzer haber tespiti Elde Edilen Sonuçlar Sorular

Giriş Dijital depolama ortamlarının kapasitelerinindeki artış ve bilgisayar sistemlerinin kullanım artışları sonucu depolanan veri miktarları büyük boyutlara ulaşmıştır. Depolanan yapısal olmayan verinin yönetimi bilgi teknolojisinde ciddi problemlerden biridir. Merrill Lynch potansiyel olarak kullanılabilen iş bilgisinin %85'inden fazlasının yapısal olmayan veriden çıkarıldığını tahmin eder [7].

Yapılsal Olmayan Veri Yapısal olmayan veri (unstructured data) bilgisayarla işlenen bir veri yapısına sahip olmayan ya da makine tarafından kolay okunamayan bilgi Kütlesidir. Yapısal olmayan veri örnekleri; ses (örnek telefon kayıtları) ve video verileri, e-posta içerikleri, kelime işlemci dokümanları, web sayfalarında yer alam forum verileri anket cevapları, müşteri, kamu kurumları vs. bildirileri, öneri ve şikayet bilgileri, wiki, çevrimiçi chat vb.

Metin Madenciliği Metin madenciliği; yarı-yapısal ya da yapısal olmayan veriden ilginç, önceden bilinmeyen ve önemsiz olmayan bilgileri keşfeden, çok sayıda dokümanı analiz eden bir teknolojidir.

Temel Yaklaşım Dilde yer alan kavramlar, varlıklar, eylemler, durumlar vb. unsurlar kelimelerle ifade edilir. Bu nedenle bir belgeyi ifade edebilecek en küçük yapı taşı o belgeyi oluşturan kelimelerdir (Dumais vd., 1996) (Rehder vd.,1998). Bu yaklaşımdan yola çıkarak sistemde kayıtlı her haberi temsil edecek terim listesi haber bilgilerinden elde edilir ve bu listeye göre konusal açıdan benzer olan haberler gruplandırılır.

Kullanılan Veri Seti RSS 2.0 (Really Simple Syndication) dosyalarını destekleyen haber kaynaklarından elde edilen haberler kullanılmıştır. Her haber; başlık, özet, içerik, kaynak, kategori, link, yayınlanma tarihi ve resim bilgileriyle saklanmıştır.

Örnek veri seti Başlık Özet Prodi hükümeti bir yıl dayanamadı İtalya'da geçen nisanda kurulan solcu Romano Prodi hükümeti, dış politika önergesini Senato'ya kabul ettiremeyince bir yılını dolduramadan istifasını verdi. İçerik Kaynak Kategori Link Boş (NULL) Radikal Dış Haberler http://www.radikal.com.tr/haber.php?haberno=213701 Yayınlanma Tarihi 2007 02 22 22:53:00 Resim Boş (NULL)

Haber Metinlerinin Temizlenmesi Metin temizleme sırasın yapılan işlemler şunlardır; Html ifadelerini ( a href, br, b, p, font, table, div vb. ) temizlemek. Html karakter/noktalama işaretleri kodlarını temizlemek. Örneğin karakter grubu noktalama işaretlerinden çift tırnağı( ) temsil eder. Bu karakter grubu tespit edilerek ya çift tırnak ile değiştirilir ya da silinir. Nokta (.) ve tek tırnak (') dışındaki noktalama işaretleri temizlenir. Bu noktalama İşaretlerinin temizlenmemesinin nedeni; nokta, ilgili metni cümlelere ayırmada ayırıcı(separator) olarak kullanılırken, tek tırnak kendisinden sonraki karakterlerin işleme alınmamasını sağlar. Böylece işlenmesi gerekli olmayan daha az veri işlenir.

Etiket Atama Aşaması Temizlenmiş haber metinlerinin belli sayıda etiket ile sunulduğu ve bu etiketlerin terim ağırlıklarının hesaplandığı aşamadır. İçerik ya da özet bilgisi Null(boş) olmayan haberlere etiket listesi atanır.

İşlem Adımları-1 Öncelikle metin token adı verilen bölümlere ayrılır Sonra her bir parçanın uzunluğuna bakılır. Uzunluk en az bir karakter olmalıdır. Uzunluk kontrolü sonrasında tek karakterli ifadelerin sayı olup olmadığı kontrol edilir. İfade sayı ise doğrudan ilgili listeye(başlık, özet ya da içerik listesine) eklenir. Değilse işleme diğer basamaklarıyla devam edilir. Tek başına anlamı olmayan ancak cümle içinde kullanıldığında ilgili cümleye anlam katan edat, bağlaç bv. gibi ifadeler Sözlük isimli veri tabanı tablosunda yer alır. Tabloda yer alan en uzun ifade altı karakterlidir.

İşlem Adımları-2 Altı karakterli olan kelimeler sözlük tablosunda aranır. Bu tabloda yer alıyorsa bir metinde değeri olmayan ifadeler arasına girer ve ilgil listelere eklenmez. Sözlük tablosunda yer almayan kelimeler Zemberek kütüphanesi yardımıyla kök ve eklerine ayrılır. Ek listesinden çekim ekleri kaldırılarak kelimenin kökü ve yeni ek listesi ile yeni kelime üretilir. Bu şekilde ayrıştırılan kelimenin gövdesi(terim) bulunur. Zemberek kütüphanesinde yer almayan kelimeler olabilir, kelime listesi çok geniş değildir. Zemberek kütüphanesi tarafından çözülemeyen kelimeler doğrudan listelere eklenir. Özel isim ise özel isim listesine de eklenir. Bulunan terim ilgili listeye eklenir. Özel isim ise özel isim listesine de eklenir. Oluşturulan listelerdeki terimlerim terim ağırlıkları hesaplanır ve terim ağırlığı büyük olan ilk x terim haberin etiket listesi olarak atanır.

Gövde tespiti yaklaşımı Haber metinlerindeki kelimelerin Zemberek kütüphanesi ile kök ve ekleri tespit edilir. Ek listesinde bulunan çekim ekleri kaldırılarak yeni ek listesi ve kelimenin kökünden Zemberek aracılığı ile yeni kelime üretilir. Üretilen bu kelime gövde olarak alınır. Yapım ekleri çekim eklerinden daha çeşitli olması ve çekim eklerinin Zemberek kütüphanesindeki karşılığın bulunması bu yaklaşımın uygulanabilirliğini arttırmıştır.

Örnek toplar : top (isim kök) + lar (çoğul eki) verilen bu kelime için Zemberek kütüphanesinden dönen sonuçlar; topla + r : [FIIL_KOK, FIIL_GENISZAMAN_IR] top + lar : [ISIM_KOK, ISIM_COGUL_LER] top+ la + r : [ISIM_KOK, ISIM_DONUSUM_LE, FIIL_GENISZAMAN_IR] top + lar : [ISIM_KOK, ISIM_KISI_ONLAR_LER]

Terimlerine ayrılmış örnek haber Haberin başlığı : İran a tanınan süre doldu Özeti : BM Güvenlik Konseyi'nin yaptırım kararında İran'a uranyum zenginleştirmeyi durdurması için verdiği süre doldu. İçeriği : Null Başlık listesi : ['iran', 'tanınan', 'süre', 'dol'] Özet listesi : ['bm', 'güvenlik', 'konsey', 'yaptırım', 'karar', 'zenginleştirme', 'durdurma', 'verdik', 'süre', 'dol'] Özel isim listesi : ['iran', 'bm', 'güvenlik', 'konsey']

Terimlerine ayrılmış örnek haber-2 İçeriği Null olduğu için sadece özet bilgisine bakılır. Özet bilgisinden oluşan etiket Listesi; [{'ozel': 1, 'baslik': 0, 'govde': 'bm', 'sayi': 1, 'ozet': 0}, {'ozel': 1, 'baslik': 0, 'govde': 'güvenlik','sayi': 1, 'ozet': 0}, {'ozel': 1, 'baslik': 0, 'govde': 'konsey', 'sayi': 1, 'ozet': 0}, {'ozel': 0, 'baslik':0, 'govde': 'yaptırım', 'sayi': 1, 'ozet': 0}, {'ozel': 0, 'baslik': 0, 'govde': 'karar', 'sayi': 1, 'ozet': 0},{'ozel': 1, 'baslik': 1, 'govde': 'iran', 'sayi': 1, 'ozet':0}, {'ozel': 0, 'baslik': 0, 'govde': 'uranyum','sayi': 1, 'ozet': 0}, {'ozel': 0, 'baslik': 0, 'govde': 'zenginleştirme', 'sayi': 1, 'ozet': 0}, {'ozel': 0,'baslik': 0, 'govde': 'durdurma', 'sayi': 1, 'ozet': 0}, {'ozel': 0, 'baslik': 0, 'govde': 'verdik', 'sayi':1, 'ozet': 0}, {'ozel': 0, 'baslik': 1, 'govde': 'süre', 'sayi': 1, 'ozet': 0}, {'ozel': 0, 'baslik': 1, 'govde': 'dol', 'sayi':1, 'ozet': 0}]

Terim Ağırlıklandırma Tanımlar: Etiket listesi : İçeriği ya da özeti Null olmayan haberin içerik ya özet metinlerindeki terimlerinin listesi. Özel isim listesi : Haberde geçen özel isimlerin listesi(tekrarsız). Başlık listesi : Başlık bilgisindeki terimlerin listesi Özet listesi : Özet bilgisindeki terimlerin listesi Wd, t : d haberindeki t terimin ağırlığı tf x, t : x(etiket, özel, başlık, özet) listesindeki t teriminin geçme sıklığı Lx : x(etiket, özel, başlık, özet) listesinin eleman sayısı L ux : x(etiket, özel, başlık, özet) listesinin ayrık(unique) eleman sayısı

Etiket Sayısının Belirlenişi 2000 1800 1600 120 1400 100 80 1200 1000 Temizlenmiş haber Temizlenmemiş haber 60 40 Ortalama ayrık terim sayısı 800 20 600 0 Özet İçerik 400 200 0 Başlık Özet İçerik

Etiket Sayısının Belirlenişi-2 İncelenen ayrık terim sayıları sonucunda sadece özet bilgisine sahip haberlerin ortalama ayrık terim sayısının 20 olması belirlenecek sayısının bu rakama kısmen yakın olmasını gerektirmiştir. Tablo 4 ve Tablo5'te yer alan en küçük değerlerin(20, sıralı seçilmiş haberlerde 32, rastgele seçilmiş haberlerde 53) ortalaması etiket sayısı olarak belirlenmiştir. Etiket sayısı = [Min(Tablo.4) + Min(Tablo5, sıralı) +Min(Tablo5,rastgele) ] / 3 = [ 20 + 32 + 53] / 3 = 35 70 60 50 40 30 20 Ortalama ayrık terim 10 0 S1 S2 S3 S4 R1 R2 R3

Benzer Haber Tespiti Bu aşamada birbiriyle benzerlik arzeden haberler gruplanır. Terim ve ağırlıklarından oluşan etiket listesi atanılan bir haber, 'son dakika' veya kendisiyle aynı kategoride olan ve etiket listesi Null olmayan haberlerle eşleştirilir. Benzerlik hesabında, Dice, Kosinüs ve Jaccard yöntemlerinden Kosinüs yöntemi tercih edilmiştir. Kosinüs benzerlik değeri; doküman vektörleri iç çarpımının doküman boyutları çarpımına bölümü şeklinde elde edilir.

Örnek Haber 1 etiket listesi: ırak, 0.64624, sünni, 0.42832, şii, 0.42832, tecavüz, 0.39624, yap,0.27024, çağrı, 0.27024, saldırı, 0.27024, intikam, 0.27024, sonra, 0.27024, kadın, 0.27024, iki, 0.27024, polis, 0.27024, direnişçi, 0.27024 Haber 2 etiket listesi: şii, 0.59810, ırak, 0.59810, saldırı, 0.41629, bağdat, 0.41629, 41,0.36673, az, 0.36673, hedef, 0.36673, öl, 0.26265, kişi, 0.26265, alındı, 0.26265, intihar, 0.26265, ayrı, 0.26265, iki, 0.26265, başkent, 0.26265

Örnek-Devam İç çarpım = (0.64624 0.59810) + (0.42832 0.59810) + (0.27024 0.41629) + (0.27024 0.26265) = 0.896 lhaber 1l 0.27024² )½ = 1.264 = (0.64624² + 2 0.42832² + 0.39624² + 9 lhaber 2l = (2 0.59810² + 2 0.41629² + 3 0.36673² + 7 0.26265² )½ = 1.395 Sim(Haber 1, Haber 2) = iç çarpım / lhaber 1l lhaber 2l = 0.896 / [1.264 1.395] = 0.5

Sonuçlar Haber: Doğuş Didim'de marina açıyor Doğuş Grubu, 2003'te D-Marin Turgutreis İle başladığı yat limanı işletmeciliğine, Didim'de kuracağı ve tamamlandığında Türkiye'nin üçüncü büyük yat limanı kapasitesine sahip olacak yatırımıyla devam ediyor.

Sonuçlar - Benzerleri Doğuş tan Didim e 52 milyon dolarlık marina Doğuş Grubu nun 52 milyon dolar yatırımla kuracağı Türkiye nin Üçüncü büyük yat limanı D-Marine Didim in temeli dün atıldı. Grup, geçen yıl hizmete giren Turgutreis Yat Limanı nın ardından, Didim Marina ve önümüzdeki dönem açacağı Dalaman Yat Limanı yla birlikte toplam 200 milyon dolar yatırım yapmayı planlıyor.(benzerlik oranı 0.59) Doğuş'tan yaz turizmine 200 milyon dolarlık yatırım Doğuş Grubu'nun 52 milyon dolarlık yatırımla kuracağı Türkiye'nin Üçüncü büyük yat limanının temeli Didim'de atıldı. Grup, 200 milyon dolarlık yatırım yapacak. (Benzerlik oranı 0.58)

Kaynaklar Grobernik M., Mladenic D., Text-mining Tutorial, J. Stefan Institute, Slovenia Berry M. W., Drmac Z. and Jessup E. R., Matrices, Vector Spaces, and InformationRetrieval, SIAM Review, 1999 ARROWSMITH http://kiwi.uchicago.edu/webwork/purpose.html Mizrahi A.R., Weisenstern A.M, Survey System, 2003 Zhao Z., Liu H., Searching for Interacting Features, Department of Computer Science and Engineering Arizona State University Yar Even- Zohar, Introduction to Text Mining, Automated Learning Group National Center for Supercomputing Applications University of inois

Kaynaklar-devam Güven A., Türkçe Belgelerin Anlam Tabanlı Yöntemlerle Madenciliği, FBE, Yıldız Teknik Üniversitesi, 2007 Garcia Dr. Edel, Term Vector Calculations A Fast Track Tutorial, 2005 Han J. ve Kamber M. Data Mining: Concepts and Techniques, Morgan Kaufmann, San Francisco 2000 Güven A., Bozkurt O.Ö. ve Kalıpsız O., Gizli Anlambilimsel Dizinleme Yönteminin N-gram Kelimelerle Geliştirilerek, İleri Düzey Doküman Kümelemesinde Kullanımı, Bilgisayar Müh. Bölümü, Yıldız Teknik Üniversitesi Blumberg R., Atre S., The Problem with Unstructured Data, DM Review Magazine, 2003 https://zemberek.dev.java.net/surumler/v04/zemberek_0.4.0.html