VERİ MADENCİLİĞİ Metin Madenciliği

Benzer belgeler
Web Madenciliği (Web Mining)

Metin Sınıflandırma. Akış

VERİ MADENCİLİĞİ (Kümeleme) Yrd.Doç.Dr. Kadriye ERGÜN

Büyük Veri Analitiği (Big Data Analytics)

DİZİN. Not: Koyu harfle yazılan sayfalar ilgili terimin yoğun olarak geçtiği sayfaları göstermektedir.

Bilgiye Erişim Sistemleri Information Retrieval (IR) Systems. M.Fatih AMASYALI BLM 5212 Doğal Dil İşlemeye Giriş Ders Notları

Bilgi Erişim Performans Ölçüleri

Kelime Gösterimleri (Word Representation Word Embeddings)

LSI Keywords İle Sitenizin Sıralamasını Ve Trafiğini Arttırın

Bilgiye Erişim Sistemlerinde Veri Arama ve Eşleştirme

Büyük, Dağıtık, Veri Yoğunluklu Uygulamalarda Programlama Paradigmaları

Doküman Sınıflandırma Text Categorization - TC

İleri Diferansiyel Denklemler

Web Madenciliği (Web Mining)

LİNGO ALGORİTMASININ KÜMELERLE İLİŞKİLİ DOKÜMANLARIN BELİRLENMESİ VE KÜME ETİKETLERİNİN ÇIKARILMASI AŞAMALARININ İYİLEŞTİRİLMESİ

Web Madenciliği (Web Mining)

GİZLİ ANLAMBİLİMSEL DİZİNLEME YÖNTEMİNİN N-GRAM KELİMELERLE GELİŞTİRİLEREK, İLERİ DÜZEY DOKÜMAN KÜMELEMESİNDE KULLANIMI

Büyük Veri Analitiği (Big Data Analytics)

VERİ MADENCİLİĞİ (Veri Ön İşleme-2) Yrd.Doç.Dr. Kadriye ERGÜN

İşletim Sistemlerine Giriş

Web Madenciliği (Web Mining)

İleri Diferansiyel Denklemler

VERİ YAPILARI. Yrd. Doç. Dr. Murat GÖK Bilgisayar Mühendisliği Bölümü YALOVA ÜNİVERSİTESİ HASH TABLOLARI.

İç-Çarpım Uzayları ÜNİTE. Amaçlar. İçindekiler. Yazar Öğr. Grv. Dr. Nevin ORHUN

Hafta 10 - Vektör Uzay Modelleri

Konular. VERİ MADENCİLİĞİ Giriş. Problem Tanımı. Veri Madenciliği: Tarihçe. Veri Madenciliği Nedir? Bilgi Keşfi

Web Madenciliği (Web Mining)

Bilimsel ve Teknik Dokümantasyon. Yrd. Doç.Dr. Özlem Bayram

İleri Diferansiyel Denklemler

DUYGULU Projesi Tasarım Raporu

Şimdi de [ ] vektörünün ile gösterilen boyu veya büyüklüğü Pisagor. teoreminini iki kere kullanarak

KABA KÜME TEORİSİ (Rough Set Theory) Dr. Sedat TELÇEKEN

Yapay Sinir Ağları ile Web İçeriklerini Sınıflandırma. Yazarlar: Esra Nergis Güven, Hakan Onur ve Şeref Sağıroğlu. Sunan : Esra Nergis Güven

127 - Twoing Algoritması ile Sınıflandırma Kalp Hastalığı Uygulaması MEHMET AKİF ERSOY ÜNİVERSİTESİ İLHAN UYSAL MEHMET BİLEN SAMİ ULUKUŞ

BİLGİSAYAR PROGRAMLAMA DERSİ

Kavram Çıkarma Çalışmalarında Terim Benzerliklerinin Bulunması

Web Madenciliği (Web Mining)

Y.T.Ü. Öğrenci Bilgi Sistemi USIS (University Student Information System) Tanıtımı. (Doküman No: KL-029; Revizyon Tarihi: ; Revizyon No:01)

Doğal Dil İşleme Nedir? Doğal Dil İşleme

Uzaktan Algılama Teknolojileri

AYDES PROJESİ MESAJ KUTUSU EĞİTİM DOKÜMANI

Fiziksel Veritabanı Modelleme

NEDEN-SONUÇ DIYAGRAMLARı

PERGEL YAYINLARI LYS 1 DENEME-6 KONU ANALİZİ SORU NO LYS 1 MATEMATİK TESTİ KAZANIM NO KAZANIMLAR

Farkındalık Okuma öncesinde kullanılan stratejiler Okuma sırasında kullanılan stratejiler

K-MEANS VE AŞIRI KÜRESEL C-MEANS ALGORITMALARI İLE BELGE MADENCİLİĞİ

28/04/2014 tarihli LYS-1 Matematik-Geometri Testi konu analizi SORU NO LYS 1 MATEMATİK TESTİ KAZANIM NO KAZANIMLAR 1 / 31

Giriş MİKROİŞLEMCİ SİSTEMLERİ. Elektronik Öncesi Kuşak. Bilgisayar Tarihi. Elektronik Kuşak. Elektronik Kuşak. Bilgisayar teknolojisindeki gelişme

K En Yakın Komşu Methodu (KNearest Neighborhood)

3.2. Raster Veriler. Satırlar. Sütunlar. Piksel/hücre büyüklüğü

Semantik Ağ ve Üst Veri Sistemleri İçin Yeni Nesil Veri Tabanı Yönetim Modeli: NoSQL. R. Orçun Madran Atılım Üniversitesi.

Math 103 Lineer Cebir Dersi Final Sınavı

Teori ve Örneklerle. Doç. Dr. Bülent ORUÇ

İşletim Sistemlerine Giriş

VEKTÖR UZAYLARI 1.GİRİŞ

MATEMATİK ÖĞRETMENLİK ALAN BİLGİSİ - DENEME SINAVI DENEME. Diğer sayfaya geçiniz.

Graf Veri Modeli. Düğümler kümesi. Kenarlar kümesi

İki Boyutlu Yapılar için Doğrudan Rijitlik Metodu (Direct Stiffness Method) (İleri Yapı Statiği II. Kısım)

Matris Analizi (MATH333) Ders Detayları

Veri Yapıları. Öğr.Gör.Günay TEMÜR Düzce Üniversitesi Teknolojis Fakültesi

Birden Çok Tabloda Sorgulama (Join)

UZAKTAN EĞİTİM MERKEZİ

DERS TANITIM BİLGİLERİ. Dersin Adı Kodu Yarıyıl Teori (saat/hafta) Laboratuar (saat/hafta) Uygulama (saat/hafta) AKTS. Yerel Kredi

Algoritma Geliştirme ve Veri Yapıları 2 Veri Modelleri. Mustafa Kemal Üniversitesi

Math 103 Lineer Cebir Dersi Final Sınavı

İleri Diferansiyel Denklemler

sayıda soru için hiçbir ilgili belgeye erişemediklerinden soru başına erişilen ortalama ilgili belge sayıları düşüktür (1,5). Arama motorlarının

Math 103 Lineer Cebir Dersi Final Sınavı

Veri Tabanı Yönetim Sistemleri Bölüm - 7

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Dr. Y. İlker TOPCU. Dr. Özgür KABAK web.itu.edu.tr/kabak/

SAĞLIK KURULU ÖZÜRLÜ SAĞLIK KURULU RAPORU

VERİ YAPILARI VE PROGRAMLAMA

Bu bölümde; Çok ölçütlü karar verme yöntemlerinden biri olan TOPSİS yöntemi anlatılacaktır.

Konular. VERİ MADENCİLİĞİ Veri Önişleme. Değer Kümeleri. Veri Nedir? Nitelik Türleri. Konular. Veri Veri Önişleme Benzerlik ve farklılık

Math 103 Lineer Cebir Dersi Ara Sınavı

MATEMATİK BİLİM GRUBU III KURS PROGRAMI

VERİ KAYNAKLARI. Bilgi sisteminin öğelerinden biride veri

Sihirbaz Kullanarak Sorgu Oluştur : Sihirbaz sorguyu hazırlayan kişiye sorular sorar ve yanıtlarına göre sorgu oluşturur.

3. UYGULAMA - ORTAK ATIF ANALİZİ İLE BENZERLİK TAHMİNİ. Fırat Üniversitesi-Elazığ

Kılavuzu ; bir ürün veya sistemin kullanımıyla ilgili açıklamaların olduğu dokümantasyon olarak tanımlayabiliriz.

ii) S 2LW 2WH 2LW 2WH S 2WH 2LW S 3( x 1) 5( x 2) 5 3x 3 5x x Maliye Bölümü EKON 103 Matematik I / Mart 2018 Proje 2 CEVAPLAR C.1) C.

Fonksiyon Optimizasyonunda Genetik Algoritmalar

VERİ MADENCİLİĞİ (Karar Ağaçları ile Sınıflandırma) Yrd.Doç.Dr. Kadriye ERGÜN

Math 103 Lineer Cebir Dersi Final Sınavı

Makine Öğrenmesi 2. hafta

Veritabanı Yönetimi Bilgisayarların. Keşfi Hedefler. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi. Veritabanı, Veri ve Bilgi

VERİ MADENCİLİĞİ (Sınıflandırma Yöntemleri) Yrd.Doç.Dr. Kadriye ERGÜN

Büyük Veri de Türkiye den Uygulama Örnekleri Dr. Güven Fidan

Rasgele Sayı Üretme. Rasgele Sayıların Özellikleri. İki önemli istaiksel özelliği var :

BÖLÜM13 3- EXCEL DE VERİ İŞLEMLERİ

Kümeleme Algoritmaları. Tahir Emre KALAYCI

Yazarlar hakkında Editör hakkında Teşekkür

Dosyalarda Farklı Yaklaşımlar. Kütük Organizasyonu 1

SAĞLIK KURULU ENGELLİ SAĞLIK KURULU RAPORU

YZM VERİ YAPILARI DERS#9: HASH FONKSİYONLARI

Büyük Veri Analitiği (Big Data Analytics)

MATRİS - DETERMİNANT Test -1

Web Server Sunucu Loglarının K-Komşu Algoritması ile İ ncelenmesi

VERI TABANLARıNDA BILGI KEŞFI

Transkript:

VERİ MADENCİLİĞİ Metin Madenciliği Yrd. Doç. Dr. Şule Gündüz Öğüdücü 1 2 Metin için Veri Madenciliği Metin Madenciliğinde Sorunlar Metin madenciliği: Veri madenciliği teknikleri ile yazılı belgeler arasındaki (içindeki) ilişkileri, örüntüleri bulmak. doğal dilde yazılmış metinler Aynı konudaki belgeleri bulmak Birbiriyle ilişkili belgeleri bulmak Bulunan belgeleri sıralamak Bilgi elde etme sistemleri birleştirilebilir Ortak ön işleme işlemleri: doğal dil işleme yöntemleri ile bilgi elde etme sistemleri metin madenciliği sonuçlarını değerlendirmeli, yorumlamalı Metin yapısal değil Sorgulama sonucuyla ilintili metinleri bulmak zor Önemsiz veri (sözcük) çok fazla Hatalar var Metin içinde hatalar var Kavram oluşturmak zor: eş anlamlı, eşsesli, üst grup Anlam çıkarmak zor: X in iyi bir bilgisayar olduğunu düşünüyorum - X in iyi bir bilgisayar olduğundan şüpheliyim Sonuç Belgeler arasındaki ilişkilendirme hatalı 3 4 Metin Madenciliği Araçları Metin Veritabanları & Bilgi Erişim Sistemleri Ticari ürünler http://www.clearforest.com/ http://www.trl.ibm.com/projects/textmining/takmi/takmi_e.htm http://www.megaputer.com/ Metin inceleme http://www.textanalysis.info/ Problem Dile özel çözümler Sonuçlar yetersiz Metin Veritabanları (belge veritabanları) Farklı kaynaklardan dokuümanlar: haber, makale, kitap, elektronik kütüphane, elektronik podta, web sayfaları.. Veri genelde yapısal değil Bilgi erişim sistemleri büyük miktardaki veri üzerinde başarılı değil Bilgi Erişim (Information Retrival) Sistemleri Veritabanları ile birlikte gelişmiş bir araştırma alanı Bilgi belgeler şeklinde yer alıyor 5 6 1

Bilgi Erişim Sistemi Kullanıcının ilgi alanına ve isteğine en uygun belgeleri bulma Kullanıcın girdiği bir sorgulamaya göre Kullanıcının ziyaret ettiği sayfalara göre Internet ortamında web sayfalarının içeriğinin incelenmesini gerektirir Bilgi erişim yönteminde problemler Büyük bir belgeler kümesindeki belgeleri işaretleme erişimin kolay olması için Seçilen belgelerin sıralanması Belgelerin sınıflandırılması: veri madenciliği yöntemleri kullanılabilir 7 8 Dizin Oluşturma Ters Dizin Ters dizin Belgelerden oluşan veri kümesinde her sözcüğün hangi belgelerde görüldüğü işaretlenir Büyük veri kümeleri için etkili Terim ω sözcükler veya ifadeler Sözcük dağarcığı V Terimlerden oluşan küme Sözlük her anahtar bir terim ω V anahtara ait veriler zincir (atama listesi) b(ω): ω teriminin, belgeler kümesinde her görüldüğü yeri işaret eden işaretçiler listesi belge kimlik numarası (DID): belgenin küme içinde kaçıncı sırada yer aldığı terimin her görüldüğü yer için ayrı bir işaretçi DID Terimin belge içindeki konumu 9 10 Ters Dizin Ters Dizin Oluşturma Belgeler ayrıştırılır Terimler bulunur ω i Eğer ω i dizinde yer almıyorsa eklenir Terimin bulunduğu yer zincire eklenir Ters dizin boyutu = Ω( V ) Hash tablosu kullanarak gerçeklenebilir Zincirler bellekte Zincirler diskte Diske erişim süresinden dolayı elverişsiz Özel ikincil depolama yapıları kullanılması gerekir 11 12 2

Zincirlerin Sıkıştırılması Ters Dizin ile Arama Zincir için gerekli saklama alanını azaltma her terim için zincir DID ye göre sıralanır DID ler arasındaki fark saklanır Bellek kullanımı önemli ölçüde azalır Belgeler kümesinde sık yer alan terimlerin DID leri arasında fark da azdır Küçük sayılar kodlanarak bellekte daha az yer kaplarlar Örnek DID listesi: (14, 22, 38, 42, 66, 122, 131, 226 ) DID ler arasındaki fark listesi: (14, 8, 16, 4, 24, 56, 9, 95) Bir belgeler kümesi için oluşturulmuş ters dizinde bir terimi ω bulmak için ters dizinde ω terimine ait zincir b(ω) bulunur zincir taranarak terimin bulunduğu yerlerin listesi elde edilir Bir belgeler kümesi için oluşturulmuş ters dizinde k adet terim bulmak için k adet liste oluşturulur küme işlemleri ile listeler birleştirilir 13 14 Metin Ön İşleme Belgeler için dizin oluşturmadan önce ön işleme işlemleri İşaretleme Metin içindeki terimleri ayıklama HTML etiketlerinden arındırma Farklı terimleri belirleme Kök bulma: Aynı kökten gelen farklı ek almış sözcüklerin köklerini bulma Sık geçen sözcükleri ayıklama: bağlaçlar, edatlar Terim sayısında %20-30 oranında azalma 15 16 Kök Bulma Sözcüklerin biçimbirimsel çözümlemesini yaparak terimleri elde etmek Örnek: İçinde balıkçılık sözcüğü geçen bir sorgulama için, içinde balık ve balıkçı geçen belgelerin bulunması İngilizce için kök bulma: Porter Stemming Algorithm http://www.tartarus.org/~martin/porterstemmer/ Türkçe için kök bulma: Zemberek projesi https://zemberek.dev.java.net/ 17 18 3

Sorgulama Sonuçlarını Sıralama Vektör Uzayı Modeli Sorgulama içinde geçen terimlerin yer aldığı belgelerin sayısı çok fazla data mining için Google arama motorunda dönen sonuç: 68.400.000 kullanıcı ancak küçük bir kısmını inceleyebilir sorgulama sonuçlarını sıralamak gerekir sorgulamayla daha ilgili olan sonuçların başlarda yer alması Belgeler çok boyutlu vektör uzayında temsil edilir Belgeler terim vektörleri biçiminde d = (ω(1), ω(2), ω(3),, ω( d )) Belgeler kümesindeki ayrık terim sayısı vektör uzayının boyutunu belirler 19 20 Örnek Vektör Uzayı Modeli belge d 1 d 2 d 3 metin web web graph graph web net graph net page web complex terimler web graph graph web net page web complex Belgelerin boolean modeline göre temsil edilmesi: x, x : belge vektörleri ω 1, ω 2, ω 3 :terimler Vektör uzayında belgelerin gösterilimi seyrek: V >> d V = [ web, graph, net, page, complex ] V1 = [1 1 0 0 0] V2 = [1 1 1 0 0] V3 = [1 0 0 1 1] 21 22 Terim Sıklığı (TF) Devrik Belge Sıklığı (IDF) Bir belge içinde, diğer terimlere göre daha sık yer alan bir terimin önemi de daha fazladır n : ω j teriminin d i belgesinde yer alma sayısı Terim sıklığı (term frequency): TF = n di Belgeler kümesinde daha az sayıda belgede görülen bir terimin ayırt edici özelliği daha fazladır n j : belge sıklığı (document frequency: df) - ω j teriminin geçtiği belge sayısı n : belgeler kümesindeki belge sayısı ω j teriminin devrik belge sıklığı (Inverse Document Frequency): IDF j = log Belge sıklığı (df) arttıkça, devrik belge sıklığı (idf) azalır n n j 23 24 4

Tam Ağırlıklandırma (TF-IDF) Belgeler Arası Benzerlik Bir belgede çok bulunan ancak diğer belgelerde daha az görülen bir terimin ağırlığı daha fazla ω j teriminin d i belgesindeki TF-IDF ağırlığı: x = TF IDF j Sorgulama ile herbir belge arasındaki benzerlik hesaplanıp, benzerlik sonucuna göre sıralanır Herhangi iki belge arasındaki benzerlik s(d, d ) R Vektör uzayı modelinde kosinüs benzerliği belgeler arası benzerliği hesaplamak için kullanılabilir 25 26 Grafik Gösterilim Kosinüs Benzerliği Örnek: D 1 = 2 ω 1 + 3 ω 2 + 5 ω 3 D 2 = 3 ω 1 + 7 ω 2 + ω 3 Q = 0 ω 1 + 0 ω 2 + 2 ω 3 dg ω 3 5 İki vektör arasındaki açının kosinüsü cos(d 1,d 2 )=d 1 d 2 / d 1 d 2 d i d j : iki dokümanın vektör çarpımı d i : d i dokümanının uzunluğu D 1 = 2 ω 1 + 3 ω 2 + 5 ω 3 Q = 0 ω 1 + 0 ω 2 + 2 ω 3 2 3 Örnek d 1 = 3 2 0 5 0 0 0 2 0 0 d 2 = 1 0 0 0 0 0 0 1 0 2 D 2 = 3 ω 1 + 7 ω 2 + ω 3 ω 2 7 ω 1 d 1 d 2 = 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5 d 1 = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0) 0.5 = (42) 0.5 = 6.481 d 2 = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = 2.245 cos( d 1, d 2 ) =.3150 27 28 Sonuçların Değerlendirilmesi Sonuçların Değerlendirilmesi Belgeler kümesindeki belgelerin vektör uzayı modeli bulunur Kullanıcı sorgusu Q için vektör uzayı modeli bulunur Belgeler kümesindeki her belge için sorgulamayla olan benzerliği hesaplanır s(d i,q), i=1,2,...,n En fazla benzerlik değerine sahip olan belgeler kümesi R erişim çıktısı olarak belirlenir Belgeler kümesinde sorgulamayla ilgili belgeler kümesi R* ve R karşılaştırılır. 29 R*: İlgili belgeler Duyarlılık (Precision): Erişim çıktısındaki ilgili belge sayısının erişim çıktısındaki belge sayısına oranı R * R precision = R R* & R R: Erişim çıktısı Belgeler kümesi Anma (Recall): Erişim çıktısındaki ilgili belge sayısının belgeler kümesinde ilgili belgeler sayısına oranı R* R recall = R* 30 5

Olasılıklı Bilgi Erişim Sistemleri Temel varsayım: Kullanıcının sorgulamasına göre sadece ilgili belgelerden oluşan bir belgeler kümesi var (ideal durum) Probabilistic Ranking Principle (PRP) (Robertson, 1977) Belgelerin kullanıcının sorgulamasına ilgili olma olasılığına göre sıralanması Olasılıklar eldeki veriye göre mümkün olan en doğru şekilde hesaplanır Eldeki veri ile gerçeklenebilecek en iyi sistem 31 32 Olasılıklı Bilgi Erişim Sistemleri Sorgu terimlerinin bir belgede bulunabilme olasılığı P(R d,q) Belgeler olasılıklara azalacak şekilde sıralanır ' P( R d, q) P( R d, q) d : erişim çıktısında yer alamayan belge 33 34 Gizli Anlamsal İnceleme Latent Semantic Indexing (LSI) Latent Semantic Analysis Vektör uzayı modeli sorgulama içinde geçen terimler belge içinde de yer alıyorsa iyi sonuç veriyor Doğal dilin zenginliği nedeniyle sorunlar Kullanıcı sorgulamalarında genelde kavramlar yer alıyor eş anlamlı sözcükler: hediye armağan anma değerini etkiliyor eş sesli sözcükler: çay duyarlılık değerini etkiliyor Lineer cebirdeki tekil değer ayrışımı (singular value decomposition, SVD) yöntemi kullanılır Veri içindeki gizli yapıyı bulmayı hedefler Sözcükler ve kavramlar arasındaki önemli ilişkileri bulmayı hedefler D: terim belge matrisi D = [d 1... d n ] T her satır belgelerin vektör uzayı modelindeki gösterilimi her kolon terimin belgede yer alma sayısı D matrisinin tekil değer ayrışım matrisi Σ hesaplanır D = UΣV Tekil değer ayrışım matrisindeki en büyük K değer dışındakiler sıfırlanır D terim belge matrisi yeniden oluşturulur T D ˆ = UΣ ˆ V T Σˆ 35 36 6

Nitelik Seçme Nitelik -> terim Belgeler kümesindeki tüm belgelerdeki ayrık terim sayısı çok fazla belgeler arasında ayırıcılık sağlamayan terimler model öğrenme sırasında zaman karmaşıklığı artıyor 37 38 7