Hafta 10 - Vektör Uzay Modelleri

Benzer belgeler
Kelime Gösterimleri (Word Representation Word Embeddings)

NATURAL LANGUAGE PROCESSING

VERİ MADENCİLİĞİ Metin Madenciliği

Hafta 09 -Topluluk Yöntemleri - Boyut Azaltma - Anomali Tespiti

Metin Sınıflandırma. Akış

Büyük Veri Analitiği (Big Data Analytics)

ENG ACADEMIC YEAR SPRING SEMESTER FRESHMAN PROGRAM EXEMPTION EXAM

Büyük, Dağıtık, Veri Yoğunluklu Uygulamalarda Programlama Paradigmaları

Metin Madenciliğinde Yazar Tanıma (Author Recognition in Text Mining)

Yeşim AKSAN, Selma Ayşe ÖZEL, Yasin BEKTAŞ, Mustafa AKSAN, Umut Ufuk DEMİRHAN, Ümit MERSİNLİ, Hakan YILMAZER. Sunan : Yasin BEKTAŞ.

Web Madenciliği (Web Mining)

YZM Biçimsel Diller ve Otomata Teorisi. Ders#06

Türkçe Dokümanlar Ġçin Yazar Tanıma

Bilgiye Erişim Sistemleri Information Retrieval (IR) Systems. M.Fatih AMASYALI BLM 5212 Doğal Dil İşlemeye Giriş Ders Notları

Metin Madenciliği Kullanarak Yazılım Kullanımına Dair Bulguların Elde Edilmesi

Hafta 05 - Karar Ağaçları/Kümeleme

Bilgiye Erişim Sistemlerinde Veri Arama ve Eşleştirme

5. Sınıf Sınav Soru Dağılımları

Ölker, Gökhan (2011), Yazılı Türkçenin Kelime Sıklığı Sözlüğü ( Arası), Kömen Yayınları, Konya, 643s., ISBN:

Open Source Coding: Python

Web Server Sunucu Loglarının K-Komşu Algoritması ile İ ncelenmesi

Büyük Veri İçin İstatistiksel Öğrenme (Statistical Learning for Big Data)

Web Madenciliği (Web Mining)

Python ile Programlamaya Giriş DERS 8: DEMETLER VE SÖZLÜKLER DR. HÜSEYİN BAHTİYAR

FOCUS ON LANGUAGE and MULTIMEDIA LANGUAGE ASSISTANT (MMLA)

BORSA İSTANBUL (BIST) 100 ENDEKSİ YÖNÜNÜN EKONOMİ HABERLERİ İLE TAHMİN EDİLMESİ YÜKSEK LİSANS TEZİ. Hakan GÜNDÜZ

Semantik (Semantics): ifadelerin, deyimlerin, ve program birimlerinin anlamı Sentaks ve semantik bir dilin tanımı sağlar

Makine Öğrenmesi İle Duygu Analizinde Veri Seti Performansı

ÖRNEKTİR - SAMPLE. RCSummer Ön Kayıt Formu Örneği - Sample Pre-Registration Form

Türkçe Tümcelerin Sonunu Belirlemede Açık Kaynak / Ücretsiz Yazılımlar ve Performans Analizleri

YABANCI DİL I Zorunlu 1 1 4

A) Please come in. B) Quiet, please. C) Clean the board, please. D) Turn off the light, please. Sargın Test 4. Sınıf

WOULD. FUTURE in PAST [1] (geçmişteki gelecek) [past of WILL] He said he would be. She hoped (that) we would com. I thought that he would ref

Web Madenciliği (Web Mining)

Film Çalışmalarında Konular: Mizah (ELIT 433) Ders Detayları

Cümle bağlamından gerçek ve mecaz anlamlı sözcükleri ayırt eder.

Film Çalışmalarında Konular: Mizah (ELIT 433) Ders Detayları

SPSS (Statistical Package for Social Sciences)

ADNAN MENDERES ÜNİVERSİTESİ FEN BİLİMLERİ ENSTİTÜSÜ MATEMATİK ANABİLİM DALI MATEMATİK PROGRAMI DERS LİSTESİ

a) Present Continuous Tense (Future anlamda) I am visiting my aunt tomorrow. (Yarin halamı ziyaret ediyorum-edeceğim.)

Eviews ve Veri Girişi

Website review sorumatik.com.tr

Web Madenciliği (Web Mining)

Anlatım, Tartışma, Gözlem, Uygulama Alıştırma,

KNN Algoritması ve R Dili ile Metin Madenciliği Kullanılarak Bilimsel Makale Tasnifi

Öğrencilere bilgisayar destekli titreşim analizi yeteğinin kazandırılması

Web of Science GAZİ ÜNİVERSİTESİ MERKEZ KÜTÜPHANESİ

Teknoloji Servisleri; (Technology Services)

THE ENGLISH SCHOOL OF KYRENIA an exceptional school

DUYGULU Projesi Tasarım Raporu

BLM 4811 MESLEKİ TERMİNOLOJİ II Salı , D-109 Dr. Göksel Biricik

Web Madenciliği (Web Mining)

D-Link DSL 500G için ayarları

EŞLE/İNDİRGE YÖNTEMİ KULLANILARAK DESTEK VEKTÖR MAKİNESİ ALGORİTMASI İLE YÜKSEK BOYUTLU SOSYAL MEDYA MESAJLARININ KUTUPSAL DEĞERİNİN ÖLÇÜLMESİ

A1: Temel/Elementary. Verilen dil kalıplarıyla sözlü ve yazılı iletişim kurabilir. İletişimsel, öğrenci odaklı, ikili ve grup çalışmaları

DOKUZ EYLUL UNIVERSITY FACULTY OF ENGINEERING OFFICE OF THE DEAN COURSE / MODULE / BLOCK DETAILS ACADEMIC YEAR / SEMESTER. Course Code: MMM 4027

Virtualmin'e Yeni Web Sitesi Host Etmek - Domain Eklemek

Ders Adı Kodu Yarıyılı T+U Saati Ulusal Kredisi AKTS Y.DİL III.(İNG.) DKB

Let s, Shall we, why don t. Let s, let us: Öneri cümlesi başlatır. Let s elim anlamına gelir. Let s play basketball. Haydi basketball oynayalım.

Hafta 03/04 - Uzaklık/Benzerlik - En Yakın Komşular - Karar Ağaçları

Wordnet ve Bilgisayar Ağ Terimleri Sözlüğünün Oluşturulması

Otomatik Doküman Sınıflandırma

2. SINIF İNGİLİZCE DERSİ EĞİTİM ÖĞRETİM YILI TÜM ÜNİTELERİ VE KONULARI KAPSAYAN TARAMA TESTİ

Metin Sınıflandırmada Benzerlik Hesaplama Tekniklerinin Değerlendirilmesi. Evaluation of Similarity Measurement Techniques for Text Classification

İstanbul Şehir Üniversitesi Bahar

Otomatik Doküman Sınıflandırma

Doküman dili tanıma için ikili örüntüler tabanlı yeni bir yaklaşım

İSTANBUL ÜNİVERSİTESİ EDEBİYAT FAKÜLTESİ TÜRK DİLİ VE EDEBİYATI DERGİSİ (TDED) NİN YAYIN İLKELERİ VE MAKALE YAZIM KURALLARI

Grundtvig Programı 2012 Öğrenme Ortaklıkları Ara Dönem Toplantısı. 17 Haziran Ankara

Bulanık Mantık Tabanlı Uçak Modeli Tespiti

Cambridge International Examinations Cambridge International General Certificate of Secondary Education

Turkish and Kurdish influences in the Arabic Dialects of Anatolia. Otto Jastrow (Tallinn)

Hafta 13 - Adversarial ML

ÜNİBİLGİ. Ankara Üniversitesi Kütüphane ve Dokümantasyon Daire Başkanlığı

Metin Madenciliği ile Benzer Haber Tespiti

S A I15 NUMBER Y I L08

Yapay Sinir Ağları ile Web İçeriklerini Sınıflandırma. Yazarlar: Esra Nergis Güven, Hakan Onur ve Şeref Sağıroğlu. Sunan : Esra Nergis Güven

ISBN NUMARASI: ISBN NUMARASI: ISBN NUMARASI: ISBN NUMARASI:

TEST. kar daki resimde di italolarak ea a dakilerden. parents every morning. hangisidir?

Web Madenciliği (Web Mining)

Yrd. Doç. Dr. A. Burak İNNER

Window Script Host. Message Box Kullanımı. Pupup(Acilir)Message Kullanımı. Arslan ACAR

AB surecinde Turkiyede Ozel Guvenlik Hizmetleri Yapisi ve Uyum Sorunlari (Turkish Edition)

ve Sonrası Girişli Öğrenciler için Uygulanacak Ders Program

Basit Bir Ofis PBX Sisteminin TekSIP ve TekIVR ile Oluşturulması

Şayet bir lineer sistemin en az bir çözümü varsa tutarlı denir.

Learn how to get started with Dropbox: Take your stuff anywhere. Send large files. Keep your files safe. Work on files together. Welcome to Dropbox!

Manisa Celal Bayar Üniversitesi Yazılım Mühendisliği Bölümü YZM Yapay Zekâ Dersi. Final Soruları A KİTAPÇIĞI. Güz,

ELECO '2012 Elektrik - Elektronik ve Bilgisayar Mühendisliği Sempozyumu, 29 Kasım - 01 Aralık 2012, Bursa

Bilişim Enstitüsü ++ Bilişim Enstitüsü ++ Bilişim Enstitüsü ++ Bilişim Enstitüsü ++ Bilişim Enstitüsü ++ Bilişim Enstitüsü ++ Bilişim Enstitüsü

Farklı Özellik Vektörleri ile Türkçe Dokümanların Yazarlarının Belirlenmesi

Python ile Programlamaya Giriş DERS 9: FONKSİYONLAR DR. HÜSEYİN BAHTİYAR

Grade 8 / SBS PRACTICE TEST Test Number 9 SBS PRACTICE TEST 9

BAHAR DÖNEMİ BÜTÜNLEME SINAV TAKVİMİ / SPRING SEMESTER RETAKE EXAM SCHEDULE Wednesday / Çarşamba

Online Stant Başvurusu Nasıl Yapılır?

Python ile Programlamaya Giriş DERS 1: PYTHON YÜKLENMESİ VE GENEL BİLGİLER DR. HÜSEYİN BAHTİYAR

BBC English in Daily Life

Transkript:

BGM 565 - Siber Güvenlik için Makine Öğrenme Yöntemleri Bilgi Güvenliği Mühendisliği Yüksek Lisans Programı Dr. Ferhat Özgür Çatak ozgur.catak@tubitak.gov.tr İstanbul Şehir Üniversitesi 2018 - Bahar

İçindekiler 1 Text Mining Giriş NLTK Tf-Idf Vektör Uzay Modeli

İçindekiler 1 Text Mining Giriş NLTK Tf-Idf Vektör Uzay Modeli

Metin Madenciliği - Doğal Dil İşleme Text Mining - Natural Language Processing Doğal Dil Doğal dil ile, insanlar tarafından günlük iletişim için kullanılan bir dil; Türkçe, İngilizce veya Almanca gibi diller Programlama dilleri gibi yapay dillerden farklı olarak evrimleşerek günümüze gelmişlerdir. Bütün kurallarını oluşturabilmek neredeyse imkansızdır.

NLTK I Natural Language Toolkit NLTK Doğal dil verileriyle çalışan kütüphane import nltk nltk.download()

NLTK II Natural Language Toolkit In [1]: from nltk.book import * *** Introductory Examples for the NLTK Book *** Loading text1,..., text9 and sent1,..., sent9 Type the name of the text or sentence to view it. Type: texts() or sents() to list the materials. text1: Moby Dick by Herman Melville 1851 text2: Sense and Sensibility by Jane Austen 1811 text3: The Book of Genesis text4: Inaugural Address Corpus text5: Chat Corpus text6: Monty Python and the Holy Grail text7: Wall Street Journal text8: Personals Corpus text9: The Man Who Was Thursday by G. K. Chesterton 1908 In [2]: text1 Out[2]: <Text: Moby Dick by Herman Melville 1851>

NLTK III Natural Language Toolkit Kelime Dağarcığı (Vocabulary) NLTK üzerinde len(text7) ifadesi ile text7: Wall Street Journal içinde yer alan tokenler (kelimeler, noktalama işaretleri) sayılmaktadır. token: uzun, onun, :) In [1]: len(text7) Out[1]: 100676 In [2]: text7[1200:1220] Out[2]: [ yield,., The, average, seven-day, simple, yield, of, the, 400, funds, was, 8.12, %,,, down, from, 8.14, %,. ]

NLTK IV Natural Language Toolkit Tokens In [1]: sorted(set(text7))[0:40] Out[1]: [!, #, $, %, &," "," "," 30s"," 40s"," 50s"," 80s"," 82", " 86"," S"," d"," ll"," m"," re"," s"," ve", *, *-1, *-10, *-100, *-101, *-102, *-103, *-104, *-105, *-106, *-107, *-108, *-109, *-11, *-110, *-111, *-112, *-113, *-114, *-115 ] In [2]: len(set(text7)) Out[2]: 12408

NLTK V Natural Language Toolkit Lexical Richness of the Text Her bir token ortalama 8 kere metin içerisinde yer almaktadır. In [1]: len(text7) / len(set(text7)) Out[1]: 8.113797549967762 In [2]: text7.count("u.s.") Out[2]: 221 In [3]: text7.count("u.s.a.") Out[3]: 4 In [4]: 100*text7.count("U.S.")/len(text7) Out[4]: 0.21951607135762247

NLTK VI Natural Language Toolkit Frekans Dağılımları Metnin konusu ve türü hakkında en bilgilendirici olan bir tokenlar In [1]: fdist1 = FreqDist(text7) In [2]: vocab1 = fdist1.keys() In [3]: list(vocab1)[0:20] Out[3]: [ Pierre, Vinken,,, 61, years, old, will, join, the, board, as, a, nonexecutive, director, Nov., 29,., Mr., is, chairman ] In [4]: fdist1.plot(50, cumulative=false) In [5]: fdist1.plot(50, cumulative=true)

Tf-Idf Tf-Idf Tf-Idf : Term Frequency Inverse Document Frequency Bir dökümanda yer alan kelimelerin (tokenların) ne kadar önemli olduğunun ölçümü Textual representation information Vector Space Model (VSM) VSM: metinsel bilgiyi bir vektör olarak temsil eden modeldir. bir terimin önemi (tf idf) Bir terimin belgede varlığı veya yokluğu (Bag of Words)

Vektör Uzay Modeli I Vector Space Model Train Document Set: d1: The sky is blue. d2: The sun is bright. Test Document Set: d3: The sun in the sky is bright. d4: We can see the shining sun, the bright sun. Sözlük (index vocabulary) oluşturulması index vocabulary: E(t), t: term 1, if t is blue 2, if t is sun E(t) = 3, if t is bright 4, if t is sky is, the gibi kelimeler stopwords olduklarından ihmal edilirler. bana, bazıları, beni, böyle, bundan, bütün, edecek, ederek, hangi, kadar, o, olarak, olduklarını, onları

Vektör Uzay Modeli II Vector Space Model Vektör uzayında her bir terimi temsil etmek için terim frekansı (term-frequency) kullanılır tf (t, d) = fr(x, t) x d { 1, if x = t fr(x, t) = 0, otherwise tf ( sun, d4) = 2 dokuman vektörü: v dn = {tf (t 1, d n), tf (t 2, d n),, tf (t m, d n), } v d3 = (0, 1, 1, 1) v d4 = (0, 2, 1, 0) The matrix representation of the vectors [ ] 0 1 1 1 X = 0 2 1 0

Python >>> train_set = ("The sky is blue.", "The sun is bright.") >>> test_set = ("The sun in the sky is bright.", "We can see the shining sun, the bright sun.") >>> from sklearn.feature_extraction.text import CountVectorizer >>> vectorizer = CountVectorizer() # Sozluk olustur >>> vectorizer.fit_transform(train_set) >>> print(vectorizer.vocabulary_) { the : 5, sky : 3, is : 2, blue : 0, sun : 4, bright : 1} # sparse matrix of test set >>> smatrix = vectorizer.transform(test_set) >>> print(smatrix) (0, 1) 1 (0, 2) 1 (0, 3) 1 (0, 4) 1 (0, 5) 2 (1, 1) 1 (1, 4) 2 (1, 5) 2 >>> smatrix.todense() matrix([[0, 1, 1, 1, 1, 2], [0, 1, 0, 0, 2, 2]])

idf t = log N df t Text Mining Ters Döküman Frekansı Ters döküman frekansı Her terime eşit önem. sun kelimesi her dokümanda mevcut. Sözcüğün ne kadar bilgi sağladığı, yani terimin tüm belgeler arasında yaygın mı yoksa nadir mi olduğu ölçüsüdür. Terim t nin derlemde yer alan N adet mesajda görülme frekansi, doküman frekansı, df t, olarak adlandırılır. Ters dokuman frekansı: